利用scrapy框架爬取百度閱讀書籍資訊

阿新 • • 發佈：2018-12-15

專案需求：爬取百度閱讀的榜單圖書的資訊，如：書名、評分、作者、出版方、標籤、價格，生成一個csv檔案。

專案的大致流程：建立spider工程專案，建立spider爬蟲，定義相關欄位，分析頁面資訊......

由於scpapy框架，之間存在相互聯絡，針對此專案不同的檔案需要進行相關的專案，一下通過程式碼簡單介紹。

先看spider程式碼：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractor import LinkExtractor
from ..items import BookItem

class Top200Spider(scrapy.Spider):
    name = 'top200'
    allowed_domains = ['yuedu.baidu.com']
    start_urls = ['https://yuedu.baidu.com/rank/hotsale?pn=0']

    #解析書籍資料列表
    def parse(self, response):
       #提取每一本書籍頁面的連結
        le = LinkExtractor(restrict_css='a.al.title-link')
        for link in le.extract_links(response):
            yield scrapy.Request(link.url,callback=self.parse_book)

        #提取下一頁列表的連結
        url = response.css('div.pager a.next::attr(href)').extract_first()
        #判斷是否存在下一頁
        if url:
            url = response.urljoin(url)
            yield scrapy.Request(url,callback=self.parse)

    def parse_book(self,response):
        sel = response.css('div.content-block')

        item = BookItem()
        #書名
        item['name'] = sel.css('h1.book-title::attr(title)').extract_first()
        #評分
        item['rating'] = sel.css('div.doc-info-score span.doc-info-score-value::text').extract_first()
        #作者
        item['authors'] = sel.css('ul.doc-info-org li.doc-info-author a::text').extract_first()
        #版權方
        item['publisher'] = sel.css('ul li').xpath('.//span[contains(string(.),"版權方")]/../a/text()').extract_first()
        #標籤
        item['tags'] = sel.css('div.content a::attr(title)').extract()
        #價格
        item['price'] = sel.css('div.price-info span.numeric::text').extract()

        yield item

注意點：Item類需要匯入，在Items檔案中進行欄位的定義，見程式碼：

import scrapy

class BookItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    rating = scrapy.Field()
    authors = scrapy.Field()
    publisher = scrapy.Field()
    tags  = scrapy.Field()
    price = scrapy.Field()

注意：在爬取網站前，先到shell中進行測試，看通過選擇器能不能獲取欄位資訊。還需要在setting檔案中進行相關的設定，因為好多網站設有反爬蟲技術，所以我們可以先訪問robots.txt 檔案，檢視允許爬取的內容。在setting中設定，見程式碼：

USER_AGENT = 'Baiduspider'   # 更改robots檔案能夠訪問的請求頭

最後，執行爬蟲：生成books.csv檔案。

scrapy crawl top200 -o books.csv

利用scrapy框架爬取百度閱讀書籍資訊

專案需求：爬取百度閱讀的榜單圖書的資訊，如：書名、評分、作者、出版方、標籤、價格，生成一個csv檔案。專案的大致流程：建立spider工程專案，建立spider爬蟲，定義相關欄位，分析頁面資訊...... 由於scpapy框架，之間存在相互聯絡，針對此專案不同的檔案

scrapy 試用爬取百度首頁

# -*- coding: utf-8 -*- import scrapy class BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['baidu.com'] start_urls = ['ht

利用scrapy框架爬取網易新聞排行榜

wyxw.py中程式碼 # -*- coding: utf-8 -*- import scrapy from ..items import WyxwItem class WyxwSpider(scrapy.Spider): name = 'wyxw' al

使用Scrapy框架爬取360攝影圖片的資訊

要點 1.分析Ajax請求觀察到Ajax請求引數的變化，有一個引數sn一直在變化，當sn=30時，返回的時前30張圖片，listtype時排序方式，temp是引數可以忽略 2.構造請求和提取資訊 #

java使用htmlunit爬取百度搜索資訊

在maven專案裡新增所需的開源包，這裡我使用2.23版本 <dependency> <groupId&

Python開發爬蟲爬取百度百科詞條資訊(原始碼下載)

下面使用Python開發一個網頁爬蟲，爬取百度百科詞條資訊，整個程式涉及到url管理器，html下載器，html解析器，html顯示以及排程程式：程式結構： spider_main.py：爬蟲的排

經典爬蟲：用Scrapy爬取百度股票

前言今天我們編寫一個用 Scrapy 框架來爬取百度股票的程式碼，之前寫過一篇爬取百度股票的文章（點我），程式碼的邏輯和這篇文章的邏輯是一樣的，用到的解析器不同罷了。 Scrapy 爬蟲框架 Scrapy 爬蟲框架是由 7+2 的結構構成：引擎

scrapy 詳細例項-爬取百度貼吧資料並儲存到檔案和和資料庫中

Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。使用框架進行資料的爬取那，可以省去好多力氣，如不需要自己去下載頁面、資料處理我們也不用自己去寫。我們只需要關注資料的爬取規則就行，scrap

scrapy爬取百度圖片

百度圖片基本沒什麼反爬蟲措施，我們爬取圖片時直接滑鼠右鍵--->檢查----->network---->XHR，往下拖動得到頁面，可以看到headers下的General,檢視實際的請求Request URL,提取其中的關鍵資訊即可話不多說，直接上程式碼

java爬取百度首頁源代碼

clas read 意思出現異常 nts java.net new 有意思 all 爬蟲感覺挺有意思的，寫一個最簡單的抓取百度首頁html代碼的程序。雖然簡單了一點，後期會加深的。 1 package test; 2 3 import java.io.B

requests+xpath+map爬取百度貼吧

name ads int strip 獲取 app open http col 1 # requests+xpath+map爬取百度貼吧 2 # 目標內容:跟帖用戶名,跟帖內容,跟帖時間 3 # 分解: 4 # requests獲取網頁 5 # xpath提取內

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

python爬取百度搜索圖片

知乎需要 with 異常 mage 不足 request height adr 在之前通過爬取貼吧圖片有了一點經驗，先根據之前經驗再次爬取百度搜索界面圖片廢話不說，先上代碼 #!/usr/bin/env python # -*- coding: utf-8 -*- #

Python爬取百度貼吧數據

utf-8 支持我 family encode code word keyword 上一條時間　　本渣除了工作外，在生活上還是有些愛好，有些東西，一旦染上，就無法自拔，無法上岸，從此走上一條不歸路。花鳥魚蟲便是我堅持了數十年的愛好。　　本渣還是需要上班，才能支持我的

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

python爬取百度搜索結果ur匯總

百度搜索 sta attr amp end rom range 百度篩選寫了兩篇之後，我覺得關於爬蟲，重點還是分析過程分析些什麽呢： 1）首先明確自己要爬取的目標　　比如這次我們需要爬取的是使用百度搜索之後所有出來的url結果 2）分析手動進行的獲取目標的過程，以便

python 爬取百度url

style not 域名 head dex fin compile threads www 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Date : 2017-08-29 18:38:23 4

多線程爬取百度百科

lib item put 腳本 mit sin find client rtl 前言：EVERNOTE裏的一篇筆記，我用了三個博客才學完...真的很菜...百度百科和故事網並沒有太過不一樣，修改下編碼，debug下，就可以爬下來了，不過應該是我爬的東西太初級了，而且我爬到

【學習筆記】python爬取百度真實url

python 今天跑個腳本需要一堆測試的url，，，挨個找復制粘貼肯定不是程序員的風格，so，還是寫個腳本吧。環境：python2.7 編輯器：sublime text 3 一、分析一下首先非常感謝百度大佬的url分類非常整齊，都在一個

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

利用scrapy框架爬取百度閱讀書籍資訊

相關推薦