scrapy初探之實現爬取小說

阿新 • • 發佈：2018-06-04

scrapy 爬取小說

一、前言

上文說明了scrapy框架的基礎知識，本篇實現了爬取第九中文網的免費小說。

二、scrapy實例創建

1、創建項目

C:\Users\LENOVO\PycharmProjects\fullstack\book9>scrapy startproject book9

2、定義要爬取的字段（item.py）

import scrapy

class Book9Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    book_name = scrapy.Field()   #小說名字
    chapter_name = scrapy.Field()   #小說章節名字
    chapter_content = scrapy.Field()    #小說章節內容

3、寫爬蟲（spiders/book.py）

在spiders目錄下創建book.py文件
import scrapy
from book9.items import Book9Item
from scrapy.http import Request
import os

class Book9Spider(scrapy.Spider):
    name = "book9"
    allowed_domains = [‘book9.net‘]
    start_urls = [‘https://www.book9.net/xuanhuanxiaoshuo/‘]

    #爬取每本書的URL
    def parse(self, response):
        book_urls = response.xpath(‘//div[@class="r"]/ul/li/span[@class="s2"]/a/@href‘).extract()

        for book_url in book_urls:
            yield Request(book_url,callback=self.parse_read)

    #進入每一本書目錄
    def parse_read(self,response):

        read_url = response.xpath(‘//div[@class="box_con"]/div/dl/dd/a/@href‘).extract()

        for i in read_url:
            read_url_path = os.path.join("https://www.book9.net" + i)

            yield Request(read_url_path,callback=self.parse_content)

    #爬取小說名，章節名，內容
    def parse_content(self,response):

        #爬取小說名
        book_name = response.xpath(‘//div[@class="con_top"]/a/text()‘).extract()[2]

        #爬取章節名
        chapter_name = response.xpath(‘//div[@class="bookname"]/h1/text()‘).extract_first()

        #爬取內容並處理
        chapter_content_2 = response.xpath(‘//div[@class="box_con"]/div/text()‘).extract()
        chapter_content_1 = ‘‘.join(chapter_content_2)
        chapter_content = chapter_content_1.replace(‘    ‘, ‘‘)

        item = Book9Item()
        item[‘book_name‘] = book_name
        item[‘chapter_name‘] = chapter_name
        item[‘chapter_content‘] = chapter_content

        yield item

4、處理爬蟲返回的數據(pipelines.py)

import os

class Book9Pipeline(object):
    def process_item(self, item, spider):
        #創建小說目錄

        file_path = os.path.join("D:\\Temp",item[‘book_name‘])
        print(file_path)
        if not os.path.exists(file_path):
            os.makedirs(file_path)

        #將各章節寫入文件
        chapter_path = os.path.join(file_path,item[‘chapter_name‘] + ‘.txt‘)
        print(chapter_path)
        with open(chapter_path,‘w‘,encoding=‘utf-8‘) as f:
            f.write(item[‘chapter_content‘])

        return item

5、配置文件(settiings.py)

BOT_NAME = ‘book9‘

SPIDER_MODULES = [‘book9.spiders‘]
NEWSPIDER_MODULE = ‘book9.spiders‘
# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# 設置請求頭部
DEFAULT_REQUEST_HEADERS = {
    "User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",
    ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘
}
# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    ‘book9.pipelines.Book9Pipeline‘: 300,
}

6、執行爬蟲
C:\Users\LENOVO\PycharmProjects\fullstack\book9>scrapy crawl book9 --nolog

7、結果
技術分享圖片

scrapy初探之實現爬取小說

scrapy 爬取小說一、前言上文說明了scrapy框架的基礎知識，本篇實現了爬取第九中文網的免費小說。二、scrapy實例創建 1、創建項目 C:\Users\LENOVO\PycharmProjects\fullstack\book9>scrapy startproject book

scrapy爬蟲之crawlspide爬取豆瓣近一週同城活動

簡介本文主要介紹crawlspider爬取豆瓣近一週同城活動。要點：item／itemloader利用input_processor/output_processor對爬取的資料進行過濾。實現為了演示資料過濾，我們只爬取到第二頁的資料。一、定

scrapy初探之爬取武sir首頁博客

scrapy一、爬蟲網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。二、scrapy框架 Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應

使用scrapy框架+模擬瀏覽器方法實現爬取智聯的職位資訊

由於智聯的頁面是由js動態載入的,一般的方法只能得到js載入前的頁面,為了得到載入過的頁面需要通過模擬瀏覽器來拿到完整的頁面. 下面的程式碼只是簡單的實現,爬取智聯頁面的部分功能,其他根據需要自己實現中介軟體(middleswares.py)程式碼: from scrapy.ht

網路爬蟲之Scrapy實戰二：爬取多個網頁

前面介紹的scrapy爬蟲只能爬取單個網頁。如果我們想爬取多個網頁。比如網上的小說該如何如何操作呢。比如下面的這樣的結構。是小說的第一篇。可以點選返回目錄還是下一頁對應的網頁程式碼：我們再看進入後面章節的網頁，可以看到增加了上一頁對應的網頁程式碼通過

Python爬蟲之如何爬取抖音小姐姐的視訊

介紹這次爬的是當下大火的APP--抖音，批量下載一個使用者釋出的所有視訊。各位也應該知道，抖音只

基於Python3.6寫的自助翻譯小軟體--使用google translate的介面，Python實現爬取google翻譯API結果，並打包成.exe的可執行檔案

看文獻看的頭疼，為了解決小麻煩沒事就寫了這個來玩一玩。其實也沒有什麼就是用一個簡單的爬蟲和介面，所以啥也不多說，直接貼程式碼，歡迎嘗試# -*- coding: utf-8 -*- # filename:GoogleTranslation1.2.py import urll

scrapy爬蟲系列之三--爬取圖片保存到本地及日誌的基本用法

用法 request 讀取配置 turn 重寫方法沒有 elf sel jpg 功能點：如何爬取圖片，並保存到本地爬取網站：鬥魚主播完整代碼：https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代碼： dou

scrapy爬蟲系列之四--爬取列表和詳情

ont str extra utf-8 book line col turn detail 功能點：如何爬取列表頁，並根據列表頁獲取詳情頁信息？爬取網站：東莞陽光政務網完整代碼：https://files.cnblogs.com/files/bookwed/yang

爬蟲實例之selenium爬取淘寶美食

獲取 web tex 匹配 ive cati def presence dea 這次的實例是使用selenium爬取淘寶美食關鍵字下的商品信息，然後存儲到MongoDB。首先我們需要聲明一個browser用來操作，我的是chrome。這裏的wait是在後面的判斷元素是

python實現爬取30頁百度校園女神圖片！

dpi 分享圖片 ges pat path lis 校園 one sha 1、以下是源代碼import requestsimport osdef getManyPages(keyword,pages): params=[] for i in range(30,3

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

Python網絡爬蟲Scrapy+MongoDB +Redis實戰爬取騰訊視頻動態評論教學視頻

並發數 www. 深入圖例編程 ppt 研發 read 網絡爬蟲課程簡介學習Python爬蟲開發數據采集程序啦！網絡編程，數據采集、提取、存儲，陷阱處理……一站式全精通！！！目標人群掌握Python編程語言基礎，有誌從事網絡爬蟲開發及數據采集程序開發的人群。學習目

聰哥哥教你學Python之如何爬取美女圖片

今天要講的是Python。Python目前主要是在人工智慧和資料分析上比較火。這裡我們就講它的資料分析。什麼叫資料分析呢？簡單地說，根據已知資料，經過分析，得出結論。這就叫做資料分析。今天聰哥哥我拿一個簡單的爬蟲例項，教你爬取美女圖片，不過在此之前聰哥哥我得說說一些雜七雜八的。這個

HttpClient 實現爬取百度搜索結果（自動翻頁）

如果你對HttpClient還不是很瞭解，建議先移步我的另一篇部落格HttpClient4.x之請求示例後再來看這篇部落格。我們這裡的專案採用maven搭建。在閱讀前要對jdk和maven有一定的瞭解。另外開發工具這裡我這裡使用的是：Spring Tool Suite（STS）當然你也可以使用其

python3爬取“小豬短租-北京”租房資訊

爬蟲思路分析： 1. 觀察小豬短租（北京）的網頁首頁：http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term=PC%E6%A0%87%E9%A2%98&utm_content=pinzhuan

scrapy框架用post 爬取網站資料的兩種方法區別

post請求，一定要重新呼叫父類的 start_requests(self)方法方法1：（推薦）重構start_requests def start_requests(self): data = { 'source': 'index_na

Python實現爬取好友頭像拼接成大圖！這不就暴露了我的好友了！

前言筆者無意間發現一個有趣的第三方庫itchat,itchat模組是一位叫little codersh的大神寫的模組，附上大神的github地址,有興趣的朋友可以去嘗試玩一下itchat模組，很有趣的！！！ https://github.com/littlecodersh/ItChat

Python教程 - 之爬蟲爬取線上教程轉成pdf

Python教程 - 之爬蟲爬取線上教程轉成pdf 作為一名程式設計師，經常要搜一些教程，有的教程是線上的，不提供離線版本，這就有些侷限了。那麼同樣作為一名程式設計師，遇到問題就應該解決它，今天就來將線上教程儲存為PDF以供查閱。 1、網站介紹 2、準備工作

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？ 1. 背景根據scrapy-redis分散式爬蟲的原理，多臺爬蟲主機共享一個爬取佇列。當爬取佇列中存在request時，爬蟲就會取出request進行爬取，如果爬取佇列中不存在request時，爬蟲就會處於等待狀

scrapy初探之實現爬取小說

二、scrapy實例創建

相關推薦