scrapy 【meta】的高階應用

阿新 • • 發佈：2019-01-14

下面以一個網站的圖書爬取為例，資料需要記錄大分類、小分類等資訊。

頁面有大分類頁面、小分類頁面、列表頁面、詳情頁面、

需要一條資料，包括所有的資訊，所以藉助meta的作用來把當前響應的資料進行傳遞給下一個解析函式。

為什麼需要深拷貝呢？防止一條資料還沒有收集完全，就被下一個請求重新定義item給洗刷掉之前所得到的資料。

    def parse(self, response):
        #1.大分類分組
        li_list = response.xpath("//ul[@class='ulwrap']/li")
        for li in li_list:
            item  
= {}
            item["b_cate"] = li.xpath("./div[1]/a/text()").extract_first()
            #2.小分類分組
            a_list = li.xpath("./div[2]/a")
            for a in a_list:
                item["s_href"] = a.xpath("./@href").extract_first()
                item["s_cate"] = a.xpath("./text()").extract_first()
                 
if item["s_href"] is not None:
                    item["s_href"]= "http://snbook.suning.com/" + item["s_href"]
                    yield scrapy.Request(
                        item["s_href"],
                        callback=self.parse_book_list,
                        meta = {"item":deepcopy(item)}
                    )

     
def parse_book_list(self,response):
        item = deepcopy(response.meta["item"])
        #圖書列表頁分組
        li_list = response.xpath("//div[@class='filtrate-books list-filtrate-books']/ul/li")
        for li in li_list:
            item["book_name"] = li.xpath(".//div[@class='book-title']/a/@title").extract_first()
            item["book_img"] = li.xpath(".//div[@class='book-img']//img/@src").extract_first()
            if item["book_img"] is None:
                item["book_img"] = li.xpath(".//div[@class='book-img']//img/@src2").extract_first()
            item["book_author"] = li.xpath(".//div[@class='book-author']/a/text()").extract_first()
            item["book_press"] = li.xpath(".//div[@class='book-publish']/a/text()").extract_first()
            item["book_desc"] = li.xpath(".//div[@class='book-descrip c6']/text()").extract_first()
            item["book_href"]= li.xpath(".//div[@class='book-title']/a/@href").extract_first()
            yield scrapy.Request(
                item["book_href"],
                callback=self.parse_book_detail,
                # 傳遞給下一個解析函式
                meta = {"item":deepcopy(item)}
            )

        #翻頁
        page_count = int(re.findall("var pagecount=(.*?);",response.body.decode())[0])
        current_page =  int(re.findall("var currentPage=(.*?);",response.body.decode())[0])
        if current_page<page_count:
            next_url = item["s_href"] +"?pageNumber={}&sort=0".format(current_page+1)
            yield scrapy.Request(
                next_url,
                callback=self.parse_book_list,
                meta = {"item":response.meta["item"]}
            )



    def parse_book_detail(self,response):
        item = response.meta["item"]
        item["book_price"] = re.findall("\"bp\":'(.*?)',",response.body.decode())
        item["book_price"] = item["book_price"][0] if len(item["book_price"])>0 else None
        print(item)

scrapy 【meta】的高階應用

下面以一個網站的圖書爬取為例，資料需要記錄大分類、小分類等資訊。頁面有大分類頁面、小分類頁面、列表頁面、詳情頁面、需要一條資料，包括所有的資訊，所以藉助meta的作用來把當前響應的資料進行傳遞給下一個解析函式。為什麼需要深拷貝呢？防止一條資料還沒有收集完全，就被下一個請求重新定義item給洗刷

計算機網絡【八】：應用層【轉】

tac 都是文件共享編寫 .net pos 遠程等待 src 轉自：http://blog.chinaunix.net/uid-26275986-id-4110819.html 今天我們來快速地瀏覽一下傳輸層之上的應用層所使用的協議，下面將簡要地列出應用

【Python】Part1 應用1-Netcat

stderr commands == -i server %s rip 文件反彈shell 01 簡介 netcat的主要功能是通過tcp或udp協議傳輸讀寫數據。下面代碼用python編寫了tcp客戶端，服務端，從而實現上傳文件，本地執行命令，反彈shell三種功能。

【轉】如何應用Query語句進行規則的語法設置？

where 編輯 designer 屬性 member expr IT 找到你過程在Altium Designer中，設計規則通常用來定義用戶的設計需求。這些規則涵蓋了設計的方方面面，從布線寬度，對象的安全間距，內電層的連接風格，過孔風格等等。

Mysql知識樹整理【3】 ---高階

實體與實體之間有3種對應關係，這些關係也需要儲存下來在開發中需要對儲存的資料進行一些處理，用到內建的一些函式檢視用於完成查詢語句的封裝事務可以保證複雜的增刪改操作有效建立表的語句如下： Create table s

【原始碼】高階色彩繪圖函式linspecer

MATLAB自帶的line spec和colormaps是非常粗糙簡單的。linspecer函式的線條繪圖基於perceptive空間，而不是RGB空間。函式編寫是基於Cynthia Brewer教授的研究成果，且易於使用。 linspecer函式建立一個N x 3的[R G B]色彩

【Android】App應用前後臺切換的一種監聽方法

Android本身並沒有提供監聽App的前後臺切換操作的方法。最近看到一種簡單巧妙的方法來監聽前後臺，這裡分享記錄一下。一、Activity生命週期我們知道在Android中，兩個Activity，分別為A和B。假設此時A在前臺，當A啟動B時，他們倆之間的生命週期關係如下，可

【centos】防火牆應用（部分總結）

開啟埠轉發功能 echo 1 > /proc/sys/net/ipv4/ip_forward 單網絡卡埠轉發：把對80埠的請求轉發到8080埠 iptables -t nat -A PREROUTING -p tcp --dport 80 -j REDIRECT --to-port

【前端】書籤應用開發總結

這是來自Learning JavaScript By Building A Boookmarker Application的筆記。首先做出來的效果是這樣的：輸入網站名和網站地址，點選提交，即可顯示在下方：點選訪問，跳轉到該網站；點選刪除則去掉該條目。資料儲

【android】簽署應用採用相同證書的用處

在應用的預期生命週期內，您應使用相同證書籤署所有 APK 應用升級：當系統安裝應用的更新時，它會比較新版本和現有版本中的證書。如果證書匹配，則系統允許更新。如果您使用不同的證書籤署新版本，則必須為應用分配另一個軟體包名稱 - 在此情況下，使用者將新版本作為全新應用安裝。應用模組化：An

【linux】--- 高階命令列文字處理工具 sort

二、sort命令 sort 命令對 File 引數指定的檔案中的行排序，並將結果寫到標準輸出。如果 File 引數指定多個檔案，那麼 sort 命令將這些檔案連線起來，並當作一個檔案進行排序。選項與引數： -f ：忽略大小寫的差異，例如 A 與 a 視為編碼相同

【linux】--- 高階命令列文字處理工具 cut

第一： cut命令 cut ：可以從一個文字檔案或者文字流中提取文字列 echo $PATH 選項 -b：僅顯示行中指定直接範圍的內容； -c：僅顯示行中指定範圍的字元； -d：指定欄位的分隔符，預設的欄位分隔符為“TAB”； -f：顯示指定欄位的內容； --comple

【記憶體】高階記憶體對映

高階記憶體含義為：線性地址空間 PAGE_OFFSET + 896M至4G的最後128M線性地址 <==對映==> 896M以上的物理頁框，非直接對映。有3種方法：非連續記憶體區對映，永久核心對映，臨時核心對映（固定對映）

【web】springboot應用增加actuator管理端點

在spring boot應用中增加actuator管理端點，可以通過訪問actuator提供的一些預設端點快捷的訪問應用的一些執行和配置狀態。 springboot應用中增加actuator端點很簡單

說說zookeeper【肆】_應用場景

在系列第一篇文章中，我們已經整理了zookeeper在分散式應用中的使用場景：可基於zookeeper實現資料釋出/訂閱、負載均衡、命名服務、分散式協調/通知、叢集管理、master選舉、分

循序漸進學.Net Core Web Api開發系列【15】：應用安全

系列目錄一、概述本篇介紹Web系統的應用安全，主要涉及使用者的身份認證和訪問許可權問題。大部分web應用習慣採用Session來儲存使用者認證資訊，對於WebApi而言，呼叫者不一定是Web瀏覽器，可能是Android、iOS客戶端，可能是微信小程式，也可能是客戶端程式等等，這些客戶端

循序漸進學.Net Core Web Api開發系列【16】：應用安全續-加密與解密

系列目錄一、概述應用安全除了使用者許可權認證外，還要考慮到資料安全，傳輸安全、系統漏洞等方面。本篇文章重點討論資料儲存安全和傳輸安全，主要技術手段就是加密和解密。二、基本概念資訊在傳輸和儲存的過程中有洩密的風險，加密的目的就是解決這些風險。 1、資訊儲存在資料庫中，如果資料庫

【Servlet】Servlet應用的get、post訪問及和JSP的配合使用

Servlet是一種伺服器端的Java應用程式，具有獨立於平臺和協議的特性，可以生成動態的Web頁面。它擔當客戶請求（Web瀏覽器或其他HTTP客戶程式）與伺服器響應（HTTP伺服器上的資料庫或應用程式）的中間層。 Servlet是位於Web伺服器內部的伺服器端的Ja

【AR】移動應用中的AR開發，5款最受歡迎工具推薦！

英文原文：Top 5 Tools for Augmented Reality in Mobile Appshttp://www.developereconomics.com/top-5-tools-for-augmented-reality-in-mobile-apps/

【轉】 MongoDB 應用場景、避坑事項與最佳實踐

MongoDB 是一個高效能，開源，無模式的文件型資料庫，是當前 NoSQL 資料庫產品中最熱門的一種。它在許多場景下可用於替代傳統的關係型資料庫或鍵/值儲存方式，MongoDB 使用 C++開發。為什麼要用 NoSQL NoSQL,全稱是”Not Only Sql”,指的

scrapy 【meta】的高階應用

相關推薦