Python的scrapy之爬取6毛小說網的聖墟

阿新 • • 發佈：2018-12-17

閒來無事想看個小說，打算下載到電腦上看，找了半天，沒找到可以下載的網站，於是就想自己爬取一下小說內容並儲存到本地

聖墟第一章沙漠中的彼岸花 - 辰東 - 6毛小說網 http://www.6mao.com/html/40/40184/12601161.html

這是要爬取的網頁

觀察結構

然後開始建立scrapy專案：

其中sixmaospider.py:

# -*- coding: utf-8 -*-
import scrapy
from ..items import SixmaoItem


class SixmaospiderSpider(scrapy.Spider):
    name  
= 'sixmaospider'
    #allowed_domains = ['http://www.6mao.com']
    start_urls = ['http://www.6mao.com/html/40/40184/12601161.html']  #聖墟

    def parse(self, response):
        novel_biaoti = response.xpath('//div[@id="content"]/h1/text()').extract()
        #print(novel_biaoti)
        novel_neirong=response.xpath(' 
//div[@id="neirong"]/text()').extract()
        print(novel_neirong)
        #print(len(novel_neirong))
        novelitem = SixmaoItem()
        novelitem['novel_biaoti'] = novel_biaoti[0]
        print(novelitem['novel_biaoti'])

        for i in range(0,len(novel_neirong),2):
            #print(novel_neirong[i]) 


            novelitem['novel_neirong'] = novel_neirong[i]

            yield novelitem

        #下一章
        nextPageURL = response.xpath('//div[@class="s_page"]/a/@href').extract()  # 取下一頁的地址
        nexturl='http://www.6mao.com'+nextPageURL[2]
        print('下一章',nexturl)
        if nexturl:
            url = response.urljoin(nexturl)
            # 傳送下一頁請求並呼叫parse()函式繼續解析
            yield scrapy.Request(url, self.parse, dont_filter=False)
            pass
        else:
            print("退出")
        pass

pipelinesio.py 將內容儲存到本地檔案

import os
print(os.getcwd())


class SixmaoPipeline(object):
    def process_item(self, item, spider):
        #print(item['novel'])

        with open('./data/聖墟.txt', 'a', encoding='utf-8') as fp:
            fp.write(item['novel_neirong'])
            fp.flush()
            fp.close()
        return item
    print('寫入檔案成功')

items.py

import scrapy


class SixmaoItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    novel_biaoti=scrapy.Field()
    novel_neirong=scrapy.Field()
    pass

startsixmao.py，直接右鍵這個執行，專案就開始運行了

from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'sixmaospider'])

settings.py

LOG_LEVEL='INFO'   #這是加日誌
LOG_FILE='novel.log'

DOWNLOADER_MIDDLEWARES = {
    'sixmao.middlewares.SixmaoDownloaderMiddleware': 543,
    'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware' : None,
    'sixmao.rotate_useragent.RotateUserAgentMiddleware' :400  #這行是使用代理
}


ITEM_PIPELINES = {
    #'sixmao.pipelines.SixmaoPipeline': 300,
    'sixmao.pipelinesio.SixmaoPipeline': 300,

}  #在pipelines輸出管道加入這個

SPIDER_MIDDLEWARES = {
   'sixmao.middlewares.SixmaoSpiderMiddleware': 543,
}  #開啟中介軟體 其餘地方應該不需要改變

rotate_useragent.py 給專案加代理，防止被伺服器禁止

# 匯入random模組
import random
# 匯入useragent使用者代理模組中的UserAgentMiddleware類
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

# RotateUserAgentMiddleware類，繼承 UserAgentMiddleware 父類
# 作用：建立動態代理列表，隨機選取列表中的使用者代理頭部資訊，偽裝請求。
#       繫結爬蟲程式的每一次請求，一併傳送到訪問網址。

# 發爬蟲技術：由於很多網站設定反爬蟲技術，禁止爬蟲程式直接訪問網頁，
#             因此需要建立動態代理，將爬蟲程式模擬偽裝成瀏覽器進行網頁訪問。
class RotateUserAgentMiddleware(UserAgentMiddleware):
    def __init__(self, user_agent=''):
        self.user_agent = user_agent

    def process_request(self, request, spider):
        #這句話用於隨機輪換user-agent
        ua = random.choice(self.user_agent_list)
        if ua:
            # 輸出自動輪換的user-agent
            print(ua)
            request.headers.setdefault('User-Agent', ua)

    # the default user_agent_list composes chrome,I E,firefox,Mozilla,opera,netscape
    # for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php
    # 編寫頭部請求代理列表
    user_agent_list = [\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"\
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",\
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",\
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",\
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",\
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",\
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
       ]

最終執行結果：

吶吶吶，這就是一個小的scrapy專案了

Python的scrapy之爬取6毛小說網

閒來無事想看個小說，打算下載到電腦上看，找了半天，沒找到可以下載的網站，於是就想自己爬取一下小說內容並儲存到本地聖墟第一章沙漠中的彼岸花 - 辰東 - 6毛小說網 http://www.6mao.com/html/40/40184/12601161.html 這是要爬取的網

Python的scrapy之爬取6毛小說網的聖墟

閒來無事想看個小說，打算下載到電腦上看，找了半天，沒找到可以下載的網站，於是就想自己爬取一下小說內容並儲存到本地聖墟第一章沙漠中的彼岸花 - 辰東 - 6毛小說網 http://www.6mao.com/html/40/40184/12601161.html 這是要爬取的網頁觀察結構下一章然

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

tps python 分享列表 scrapy 網頁 pytho 分享圖片介紹 *準備工作：爬取的網址：https://www.jianshu.com/p/7353375213ab 爬取的內容：下圖中python庫介紹的內容列表，並將其鏈接的文章內容寫進文本文件中小

菜鳥學爬蟲之爬取網易新聞

學習了python基本語法後，對爬蟲產生了很大的興趣，廢話不多說，今天來爬取網易新聞，實戰出真知。開啟網易新聞（https://news.163.com/）可以發現新聞分為這樣的幾個板塊：這次選擇國內板塊來爬取文章。 1.準備環境：python3 編譯器：PyChar

Python的scrapy之爬取鏈家網房價資訊並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。先看mylian

Python的scrapy之爬取鏈家網房價信息並保存到本地

width gif pat lse idt ext tst maximum spa 因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並保存到本地。先看鏈家網的源碼。。房價信息都保存在 ul 下的li 裏面 ? 爬蟲結構： ? 其中封裝了一

Python3.6--之爬取天氣資訊

1.工具用 Pycharm，Python3.6 2.在 Pycharm 中的Settings->Project:code->Project Interpreter點選右上角綠色’+’輸入requests和 BeautifulSoup選擇並安裝，Be

[python3.6]爬蟲實戰之爬取淘女郎圖片

原博主地址：http://cuiqingcai.com/1001.html 原博是python2.7寫的，並且隨著淘寶程式碼的改版，原博爬蟲已經不可用。參考 http://minstrel.top/TaoBaoMM 這位博主跟我一樣最近正在學習爬蟲。 1 定個小目標 l

貼吧小爬蟲之爬取原始碼

在做爬蟲工作之前，永遠先做好筆記：確定要爬取的url，爬取的具體內容是什麼，用什麼形式展現爬取到的內容。部落格的標題大家也看到了，爬取的是貼吧的原始碼，也就是說任何貼吧的原始碼都能爬。不光第一頁還要爬，第二頁第三頁……都要爬。確定了上面的內容，那就可以開始程式碼的編寫了。我最近在玩穿越火線

python3 爬蟲實戰之爬取網易新聞APP端

（一）使用工具這裡使用了火狐瀏覽器的user-agent外掛，不懂的可以點這裡火狐外掛使用（二）爬蟲操作步驟：百度網易新聞並選擇步驟一：步驟二：步驟三：步驟四：最後一步：注意點：（1

python3 [爬蟲入門實戰]爬蟲之scrapy爬取中國醫學人才網

自己第一次試著用scrapy進行爬取網頁，總共爬下9240條資料，也就兩分鐘不到，400多頁吧。用的比較簡單，但是爬取成功後感覺成就感滿滿的。來張爬取結果圖爬取欄位： “hospitalName”: “hospitalDesc”

Scrapy實戰篇（二）之爬取鏈家網成交房源數據（下）

html win64 4.0 https set 爬蟲使用創建鼓樓區在上一小節中，我們已經提取到了房源的具體信息，這一節中，我們主要是對提取到的數據進行後續的處理，以及進行相關的設置。數據處理我們這裏以把數據存儲到mongo數據庫為例。編寫pipelines.p

Scrapy實戰篇（一）之爬取鏈家網成交房源數據（上）

meta pat 分割自定義是不是 rom 創建開始 mat 今天，我們就以鏈家網南京地區為例，來學習爬取鏈家網的成交房源數據。這裏推薦使用火狐瀏覽器，並且安裝firebug和firepath兩款插件，你會發現，這兩款插件會給我們後續的數據提取帶來很大的方便。首先

Python爬蟲之如何爬取抖音小姐姐的視訊

介紹這次爬的是當下大火的APP--抖音，批量下載一個使用者釋出的所有視訊。各位也應該知道，抖音只

Scrapy實戰篇（九）之爬取鏈家網天津租房數據

房子爬取思路頁面 scrapy more 關心分析網上　　以後有可能會在天津租房子，所以想將鏈家網上面天津的租房數據抓下來，以供分析使用。　　思路：　　1、以初始鏈接https://tj.lianjia.com/zufang/rt200600000001

Java爬蟲系列之實戰：爬取酷狗音樂網 TOP500 的歌曲(附原始碼)

在前面分享的兩篇隨筆中分別介紹了HttpClient和Jsoup以及簡單的程式碼案例： Java爬蟲系列二：使用HttpClient抓取頁面HTML Java爬蟲系列三：使用Jsoup解析HTML 今天就來實戰下，用他們來抓取酷狗音樂網上的 Top500排行榜音樂。接下來的程式碼

scrapy初探之爬取武sir首頁博客

scrapy一、爬蟲網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。二、scrapy框架 Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應

python偽代碼之爬取完美誌願全國歷年文理分數線運行代碼持續更新

Python 爬蟲高考項目最近好多小夥伴說想搞個項目實戰類的，我就花了一點時間做了一個爬蟲項目（在代碼復制的時候可能會有點問題，縮格一下就沒有問題了）想要獲取更多源碼或者答疑或者或者交流學習可以加群：725479218 # -*- coding:utf-8 -*- from funct

Python爬取王者榮耀官網，實現一對一下載軟件！

案例界面 image inter ima requests mage 視頻教程 inf 效果：我沒有弄文件夾保存，因為皮膚與英雄都是一一對應，這樣子更加方便操作。點擊下載皮膚後，會自動從官網下載一個json文件，所以出了新英雄、新皮膚軟件會自動更新。高

Python的scrapy之爬取6毛小說網的聖墟

相關推薦