Scrapy爬蟲實戰 CrawlSpider和Item Loader的使用

阿新 • • 發佈：2018-11-30

網站：

https://tech.china.com/articles/

建立專案：

scrapy startproject scrapyuniversal

之前建立專案，都用scrapy genspider +爬蟲名字+域名的方式，此次要建立CrawlSpider需要使用crawl,建立命令：

scrapy genspider -t crawl china tech.china.com

在專案開始之前，要先來了解一下LinkExtractor，

rules = (
    Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
)

allow是一個正則表示式或者列表，定義了從當前頁面提取的連結哪些是符合要求的。

callback回撥函式，每次從link_extractor中獲取到連結時，被呼叫。接收一個response，返回一個包含Item或者Request物件的列表。

注意：callback中避免屬於parse（）作為回撥函式

follow指定根據該規則提取的連結是否需要跟進，如果callback引數為None，follow預設 為True。否則為False。

定義Rule：

Spider會根據每一個Rule來提取這個頁面內的超連結，生成Request.

檢視原始碼：

可以發現所有的資訊都在這個節點內，用正則表示式將文章連結都匹配出來賦值給allow引數。

rules = (
    Rule(LinkExtractor(allow='article\/.*\.html',restrict_xpaths='//div[@id="left_side"]//div[@class="con_item"]'),
         callback='parse_item',
         follow=True),
)

然後找下一頁的連結：

Rule(LinkExtractor(restrict_xpaths='//div[@id="pageStyle"]//a[contains(.,"下一頁")]'

解析頁面：

先定義欄位：

from scrapy import Field, Item

class NewsItem(Item):
    title = Field()
    text = Field()
    datetime = Field()
    source = Field()
    url = Field()
    #站點名稱，區分不同的站點
    website = Field()

獲取資料：

def parse_item(self, response):
    item = NewsItem()
    item['title'] = response.xpath('//h1[@id="chan_newsTitle"]/text()').extract_first()
    item['url'] = response.url
    item['text'] = ''.join(response.xpath('//div[@id="chan_newsDetail"]//text()').extract()).strip()
    item['datetime'] = response.xpath('//div[@id="chan_newsInfo"]/text()').re_first('(\d+-\d+-\d+\s\d+:\d+:\d+)')
    item['source'] = response.xpath('//div[@id="chan_newsInfo"]/text()').re_first('來源：(.*)').strip()
    item['website'] = '中華網'
    yield item

執行之後獲取的結果如下：

用Item Loader，通過

add_xpath（）

add_value（）

add_css()

實現配置化提取。

def parse_item(self, response):
    loader = ChinaLoader(item=NewsItem(), response=response)
    loader.add_xpath('title', '//h1[@id="chan_newsTitle"]/text()')
    loader.add_value('url', response.url)
    loader.add_xpath('text', '//div[@id="chan_newsDetail"]//text()')
    loader.add_xpath('datetime', '//div[@id="chan_newsInfo"]/text()', re='(\d+-\d+-\d+\s\d+:\d+:\d+)')
    loader.add_xpath('source', '//div[@id="chan_newsInfo"]/text()', re='來源：(.*)')
    loader.add_value('website', '中華網')
    yield loader.load_item()

from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst, Join, Compose

定義類：
class NewsLoader(ItemLoader):
    #定義TakeFirst()，相當於extract_first()方法
    default_output_processor = TakeFirst()


class ChinaLoader(NewsLoader):
    #Compose兩個引數
    # Join()也是一個Processor，可以把列表拼合成一個字串
    # lambda可以將頭尾空白符去掉
    text_out = Compose(Join(), lambda s: s.strip())
    source_out = Compose(Join(), lambda s: s.strip())

通用配置的抽取

scrapy genspider -t crawl universal universal
新建一個spider，將上文寫的Spider內的屬性抽取出來配置成一個JSON，放到config.json中：

{
    "spider": "universal",
  "website": "中華網科技",
  "type": "新聞",
  "index": "http://tech.china.com/",
  "settings": {
    "USER_AGENT": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36"
  },
  "start_urls": {
    "type": "dynamic",
    "method": "china",
    "args": [
      5,
      10
    ]
  },
  "allowed_domains": [
    "tech.china.com"
  ],
  "rules": "china"
}

這樣的話，要啟動爬蟲，僅僅需要從配置檔案中讀取後然後載入到Spider中即可，讀取方法程式碼如下：

from os.path import realpath, dirname
import json


def get_config(name):
    path = dirname(realpath(__file__)) + '/configs/' + name + '.json'
    with open(path, 'r', encoding='utf-8') as f:
        return json.loads(f.read())

此時，我們只需要傳入JSON配置檔案的名稱，就可以獲取配置資訊，入口檔案程式碼如下：

from scrapy.crawler import CrawlerProcess

def run():
    # Sys.argv[ ]其實就是一個列表，裡邊的項為使用者輸入的引數，關鍵就是要明白這引數是從程式外部輸入的，而非程式碼本身的什麼地方。
    name = sys.argv[1]
    custom_settings = get_config(name)
    # 爬蟲使用的spider名稱
    spider = custom_settings.get('spider', 'universal')
    project_settings = get_project_settings()
    settings = dict(project_settings.copy())
    # 將獲取到的settings配置和專案全域性的settings配置做合併
    settings.update(custom_settings.get('settings'))
    process = CrawlerProcess(settings)
    # 啟動
    process.crawl(spider, **{'name': name})
    process.start()


if __name__ == '__main__':
    run()

解析資料的通用配置，程式碼如下：

# -*- coding: utf-8 -*-
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapyuniversal.items import *
from scrapyuniversal.loaders import *
from scrapyuniversal.utils import get_config
from scrapyuniversal import urls
from scrapyuniversal.rules import rules


class UniversalSpider(CrawlSpider):
    name = 'universal'

    def __init__(self, name, *args, **kwargs):
        config = get_config(name)
        self.config = config
        self.rules = rules.get(config.get('rules'))
        start_urls = config.get('start_urls')
        if start_urls:
            if start_urls.get('type') == 'static':
                self.start_urls = start_urls.get('value')
            elif start_urls.get('type') == 'dynamic':
                # eval() 輸出是輸入的型別
                self.start_urls = list(eval('urls.' + start_urls.get('method'))(*start_urls.get('args', [])))
        self.allowed_domains = config.get('allowed_domains')
        super(UniversalSpider, self).__init__(*args, **kwargs)

    def parse_item(self, response):
        item = self.config.get('item')
        if item:
            cls = eval(item.get('class'))()
            loader = eval(item.get('loader'))(cls, response=response)
            # 動態獲取屬性配置
            for key, value in item.get('attrs').items():
                for extractor in value:
                    if extractor.get('method') == 'xpath':
                        loader.add_xpath(key, *extractor.get('args'), **{'re': extractor.get('re')})
                    if extractor.get('method') == 'css':
                        loader.add_css(key, *extractor.get('args'), **{'re': extractor.get('re')})
                    if extractor.get('method') == 'value':
                        loader.add_value(key, *extractor.get('args'), **{'re': extractor.get('re')})
                    if extractor.get('method') == 'attr':
                        loader.add_value(key, getattr(response, *extractor.get('args')))
            yield loader.load_item()

python run.py china 執行。

值得一提的是，引入問題還有執行問題。

引入的時候，會出現一些引入錯誤，這個需要了解相對引入和絕對引入的一些知識。

在執行的時候，使用命令列執行，會出現一系列的細節問題，不過還好，查查資料都可以解決。

Scrapy爬蟲實戰 CrawlSpider和Item Loader的使用

網站： https://tech.china.com/articles/ 建立專案： scrapy startproject scrapyuniversal 之前建立專案，都用scrapy genspider +爬蟲名字+域名的方式，此次要建立CrawlSpider需要

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報

font size 項目執行 weather html time art show 1.項目準備：網站地址：http://quanzhou.tianqi.com/ 2.創建編輯Scrapy爬蟲： scrapy startproject weather scrapy

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

sql語句 city amd64 ces img href asp encoding primary 1.數據存儲到JSon：程序閱讀一般都是使用更方便的Json或者cvs等待格式，繼續講解Scrapy爬蟲的保存方式，也就是繼續對pipelines.py文件動手腳（1）創

Scrapy爬蟲實戰------360攝影美圖

網站： http://images.so.com/ 切換到攝影介面。開啟開發者工具：我們在下拉的時候可以看到這是一個ajax請求，資料結構是json。 sn=30返回的是前30張圖片，sn=60返回的是30到60的圖片。建立專案：構造請求：

Scrapy爬蟲實戰：使用代理訪問

Scapy爬蟲實戰：使用代理訪問 Middleware 中介軟體設定代理 middlewares.py settings.py spider 配置meta使用proxy 快代理前面我們簡單的設定了h

scrapy爬蟲實戰：偽裝headers構造假IP騙過ip138.com

scrapy爬蟲實戰：偽裝headers構造假IP騙過ip138.com Middleware 中介軟體偽造Header Util.py middlewares.py settings.py ip138.py

Scrapy爬蟲實戰：百度搜索找到自己

Scrapy爬蟲實戰：百度搜索找到自己背景分析怎麼才算找到了自己怎麼才能拿到百度搜索標題怎麼爬取更多頁面 baidu_search.py 宣告BaiDuSearchItem Items

Scrapy爬蟲實戰二：獲取天氣資訊

本文專案採用python3.6版本語言，利用scrapy框架進行爬取。該專案實現的功能是爬取某城市的天氣以及往後預報一週的天氣，並將爬取到的資訊儲存為.txt檔案和寫入mysql資料庫。利用scrapy爬蟲就像是做填空題，只需要在相應的檔案裡填入相應的內容，連檔名都不用

Scrapy爬蟲入門教程七 Item Loaders（專案載入器）

目錄專案載入器巢狀裝載器開發環境： Python 3.6.0 版本（當前最新） Scrapy 1.3.2 版本（當前最新）專案載入器專案載入器提

Python爬蟲-Scrapy的item loader

使用Scrapy爬取伯樂線上的文章，將爬取的資料儲存到MySQL資料庫中。建立專案使用Scrapy命令來建立專案。梳理整體邏輯關係我們先來分析一下整體的流程，我們想要獲取，文章的圖片，標題，釋出的時間，詳情頁的連結，點贊數，收藏數，評論數。我們首先需要獲取的是

Python 和 Scrapy 爬蟲框架部署

python scrapy 爬蟲框架 Scrapy 是采用Python 開發的一個快速可擴展的抓取WEB 站點內容的爬蟲框架。安裝依賴 yum install gcc gcc-c++ openssl mysql mysql-server libffi* libxml* libxml2 l

scrapy item loader機制

del now() job time -c 第一個評論 field turn from scrapy.loader import ItemLoader #繼在jobbole中導入模塊 item_loader=ItemLoader(item=JobBoleArticle

Scrapy爬蟲框架第七講【ITEM PIPELINE用法】

不能 doc from 參考數據去重 17. con pic set ITEM PIPELINE用法詳解： ITEM PIPELINE作用：清理HTML數據驗證爬取的數據(檢查item包含某些字段) 去重(並丟棄)【預防數據去重，真正去重是在url,即請求階段

Scrapy爬蟲框架的安裝和使用

deep 使用 cts file pen ESS win .org all Scrapy是一個十分強大的爬蟲框架，依賴的庫比較多，至少需要依賴的庫有Twisted 14.0、lxml 3.4和pyOpenSSL 0.14。在不同的平臺環境下，它所依賴的庫也各不相同，所以在安

python爬蟲實戰：利用scrapy，短短50行代碼下載整站短視頻

start mongodb efi 本地 rtp 公司 loader 右鍵 more 近日，有朋友向我求助一件小事兒，他在一個短視頻app上看到一個好玩兒的段子，想下載下來，可死活找不到下載的方法。這忙我得幫，少不得就抓包分析了一下這個app，找到了視頻的下載鏈接，幫他解決

python3爬蟲之安裝和使用scrapy

環境：win10-64位、python3.6 安裝依賴安裝lxml pip install lxml 安裝zope.interface pip install zope.interface 安裝wheel pip inatall whee

python Scrapy網路爬蟲實戰（存Json檔案以及存到mysql資料庫）

1-Scrapy建立新工程在開始爬取之前，您必須建立一個新的 Scrapy 專案。進入您打算儲存程式碼的目錄中【工作目錄】，執行下列命令，如下是我建立的一個爬取豆瓣的工程douban【儲存路徑為：C:\python27\web】: 命令： scrapy star

爬蟲實戰----簡書的爬取和儲存

網站： https://www.jianshu.com/ 網站資料結構分析：滑輪拉到最下面：這是一個懶載入，只有點選閱讀更多的時候，才會有後續的資料，我們可以使用selenium。並且可以設定點選的次數，程式碼如下： browser = webd

Scrapy中Middleware和Item Pipeline的用法

Middleware 資料流向：當Downloader生成Response之後，Response會被髮送給Spider，在傳送之前，會經過Middleware處理，當Spider處理生成Item和Request之後，Item和Requ

【Python實戰】用Scrapyd把Scrapy爬蟲一步一步部署到騰訊雲

將我們的爬蟲部署到騰訊雲伺服器上面。廢話不多說，我們就來實戰操作吧。這裡選擇什麼雲服務都是可以的，阿里雲，AWS，騰訊雲，其他雲都是沒有問題的。部署方法基本一樣，這裡為了方便，所以筆者選擇了騰訊雲來做講解。既然我們選擇了騰訊雲，首先去騰訊雲的官網，註冊登入一下。點選複製https:

Scrapy爬蟲實戰 CrawlSpider和Item Loader的使用

相關推薦