Scrapy框架的學習(6.item介紹以及items的使用（提前定義好欄位名）)

阿新 • • 發佈：2019-01-13

在Scrapy框架中的items.py的作用

1.可以預先定義好要爬取的欄位 items.py

import scrapy


class TencentItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    """定義好欄位,並不代表真正的值，只是佔一個位置，用的時候直接賦值就行"""
    position = scrapy.Field()
    category = scrapy.Field()
    date = scrapy.Field()

2. 把欄位定義好之後 ,就可以在爬蟲中進行使用

在用的時候， item的鍵名要和在items.py裡面定義好的欄位名稱一致

import scrapy
''' 匯入不同爬蟲的類欄位'''
from tencent.items import TencentItem,TencentItem2,TencentItem3

class TencentSpiderSpider(scrapy.Spider):
    name = 'tencent_spider'
    allowed_domains = ['tencent.com']
    start_urls = ['https://hr.tencent.com/position.php']

    def parse(self, response):
        tr_list = response.xpath("//table[@class='tablelist']//tr")[1:-1]
        for tr in tr_list:
            """使用定義好的類"""
            item = TencentItem()
            """裡面的鍵名，必須提前在items裡面定義好之後才能用"""
            item["position"] = tr.xpath("./td/a/text()").extract_first()
            item["category"] = tr.xpath(".//td[2]/text()").extract_first()
            item["date"] = tr.xpath(".//td[5]/text()").extract_first()
            yield item

3. 如果想在pipelines.py中使用的方法是大同小異，只是在進行處理的時候item傳過來的是一個類物件，要對其進行相應的轉化

'''分別匯入不同爬蟲的欄位類'''
from tencent.items import TencentItem, TencentItem2, TencentItem3


class TencentPipeline(object):
    def process_item(self, item, spider):
        """使用item的時候這裡接收的是TencentItem類的物件，我們可以把它轉化字典"""
        print(dict(item))
        '''針對與不同的爬蟲欄位類的物件，做不同的處理'''
        return item

4. 這樣做有什麼好處呢，個人理解：

(1) 可以直接看items.py，可以看出來要爬取那些欄位

(2) 防止我們在item["鍵名"] 輸入鍵名的時候輸入錯誤

有多個爬蟲時Item的處理

例如有個騰訊爬蟲、有個京東爬蟲，怎樣處理

1. 在items.py裡面建立不同的類，分別儲存各自的欄位

class TencentItem(scrapy.Item):
    """騰訊爬蟲要爬取的欄位"""
    """定義好欄位,並不代表真正的值，只是佔一個位置，用的時候直接賦值就行"""
    position = scrapy.Field()
    category = scrapy.Field()
    date = scrapy.Field()

class JdItem(scrapy.Item):
    """京東爬蟲要爬取的欄位"""
    """定義好欄位,並不代表真正的值，只是佔一個位置，用的時候直接賦值就行"""
    position = scrapy.Field()
    category = scrapy.Field()
    date = scrapy.Field()

2. 然後在不同的爬蟲程式裡使用對應的類即可

在騰訊的爬蟲裡，匯入和使用

import scrapy
# 匯入不同爬蟲的類欄位
from tencent.items import TencentItem

class TencentSpiderSpider(scrapy.Spider):
    pass
    def parse(self, response):
        pass
        for tr in tr_list:
            """使用定義好的騰訊爬蟲的類的欄位"""
            item = TencentItem()
            yield item

在京東的爬蟲中，可以這樣使用

import scrapy
# 匯入不同爬蟲的類欄位
from JD.items import JdItem

class JdSpiderSpider(scrapy.Spider):
    pass
    def parse(self, response):
        pass
        for tr in tr_list:
            """使用定義好的騰訊爬蟲的類的欄位"""
            item = JdItem()
            yield item

3. 對於多個爬蟲，在pipelines,py中可以進行判斷，分別對不同的爬蟲的欄位進行不同的處理

isinstance() 函式來判斷一個物件是否是一個已知的型別

'''分別匯入不同爬蟲的欄位類'''
from tencent.items import TencentItem, JdItem2


class TencentPipeline(object):
    def process_item(self, item, spider):
        '''針對與不同的爬蟲欄位類的物件，做不同的處理'''
        if isinstance(item, TencentItem):
            pass
        if isinstance(item, JdItem2):
            pass
        return item

Scrapy框架的學習(6.item介紹以及items的使用（提前定義好欄位名）)

在Scrapy框架中的items.py的作用 1.可以預先定義好要爬取的欄位 items.py import scrapy class TencentItem(scrapy.Item): # define the f

Scrapy框架的學習(3.pipeline介紹以及多個爬蟲的pipeline的使用)

上個部落格最後面寫到了，pipeline的簡單使用以及引數的配置含義：https://blog.csdn.net/wei18791957243/article/details/86157707 1.從pipeline的字典形式可以看出來，pipeline可以有多個，而

Scrapy框架學習（一）Scrapy框架介紹

Scrapy框架的架構圖如上。 Scrapy中的資料流由引擎控制，資料流的過程如下： 1.Engine開啟一個網站，找到處理該網站的Sprider，並向該Sprider請求第一個要爬取得URL。 2.Engine從Sprider中獲取到第一個要爬的URL，並通過Scheduler以Requ

scrapy框架學習，理解不深得到的問題，我遇到的 from avimageitems.items import AvimageItem ModuleNotFoundError: No module named 'scrapy name'

心情複雜呀，這個問題之前找不到解決的思路，原因是沒有人會像我這麼粗心的，沒有認真去看書就寫，不過我是真的沒注意到這個框架名的是什麼，現在才發現setting中的BOT_NAME的作用，不過我是在之前的課程裡瞭解到的

spring boot框架學習6-spring boot的web開發(2)

凱哥spring boot spring boot框架本章節主要內容：通過前面的學習，我們了解並快速完成了spring boot第一個應用。spring boot企業級框架，那麽spring boot怎麽讀取靜態資源？如js文件夾，css文件以及png/jpg圖片呢？怎麽自定義消息轉換器呢？怎麽自定

scrapy框架系列 (3) Item Pipline

comment 順序 spi .py ini params config con ensure item pipeline 當Item在Spider中被收集之後，它將會被傳遞到Item Pipeline，這些Item Pipeline組件按定義的順序處理Item。每個It

爬蟲系列---Scrapy框架學習

產生 follow everyone 頁面 pos per iso select -s 項目的需求需要爬蟲某網的商品信息，自己通過Requests,BeautifulSoup等編寫了一個spider，把抓取的數據存到數據庫裏面。跑起來的感覺速度有點慢，尤其是進入詳情頁

Scrapy框架學習（二）Scrapy入門

接下來以爬取quote.toscrape.com為例完成一遍Scrapy的抓取流程。首先建立一個Scrapy專案。開啟命令列，輸入以下命令： scrapy startproject projectname 即可在當前位置建立一個Scrapy專案。我們建立一個名為tutorial的專案： scrapy

Python3 Scrapy框架學習一：爬取貓眼Top100榜

以下操作基於Windows平臺。開啟CMD命令提示框：輸入如下命令：開啟專案裡的items.py檔案，定義如下變數，用於儲存。 class MaoyanItem(scrapy.Item): # define the fields for your

Python3 Scrapy框架學習二：爬取豆瓣電影Top250

開啟專案裡的items.py檔案，定義如下變數， import scrapy from scrapy import Item,Field class DoubanItem(scrapy.Item): # define the fields for your it

Python3 Scrapy框架學習三：爬取煎蛋網加密妹子圖片(全爬)

以下操作基於Windows平臺。開啟CMD命令提示框：新建一個專案如下：開啟專案裡的setting檔案，新增如下程式碼 IMAGES_STORE = './XXOO' #在當前目錄下新建一個XXOO資料夾 MAX_PAGE = 40 #定義爬取的總得頁數

Python3 Scrapy框架學習四：爬取的資料存入MongoDB

1. 新建一個scrapy專案： 2.使用PyCharm開啟該專案 3.在settings.py檔案中新增如下程式碼： #模擬瀏覽器，應對反爬 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK

Python3 Scrapy框架學習五：使用crawl模板爬取豆瓣Top250，並存入MySql、MongoDB

1.新建專案及使用crawl模板 2.頁面解析 rules = (Rule(LinkExtractor(allow=r'subject/\d+/',restrict_css = '.hd > a[class = ""]'), callback='parse_it

Python 爬蟲 (六) -- Scrapy 框架學習

本文希望達到以下目標: 簡要介紹Scarpy 閱讀官網入門文件並實現文件中的範例使用Scarpy優豆瓣爬蟲的抓取制定下一步學習目標初學Scrapy, 如有翻譯不當, 或者程式碼錯誤, 請指出, 非常感謝 1. Scrapy簡介 Scrapy是一個為了爬取網站資料，提

python爬蟲之Scrapy框架中的Item Pipeline用法

RoCE 執行 ise inf 優先執行 sin .com 如果 ica 當Item在Spider中被收集之後, 就會被傳遞到Item Pipeline中進行處理. 每個item pipeline組件是實現了簡單的方法的python類, 負責接收到item並通過它執行一些

Scrapy框架學習

概述主要是為了練習使用CrawlSpider類的rules變數中定義多個Rule的用法，體會Scrapy框架的強大、靈活性。因此，對抓取到的內容只是儲存到JSON檔案中，沒有進行進一步的處理。原

Scrapy基礎第三節：Scrapy框架結構和元件介紹

前置知識：掌握Python的基礎知識對爬蟲基礎有一定了解說明：執行環境 Win10，Python3 64位目錄: 1 Scrapy框架組成結構 2 Scapry資料流程 Scrap

Python的scrapy框架爬蟲專案中加入郵箱通知（爬蟲啟動關閉等資訊以郵件的方式傳送到郵箱）

前面關於傳送郵件的部落格參考：普通郵件部落格——點選開啟連結帶附件的郵件——點選開啟連結準備： 1、建立scrapy爬蟲專案 2、程式碼主要是兩部分：呈上程式碼第一部分是傳送郵

網市場雲建站 v4.6 更新，增加網站轉移外掛、以及內容管理可無限擴充套件欄位。

網市場雲建站系統，結合各種產品，將一個網站的伺服器成本降低到0.1元！打破傳統建站的高成本，讓價格不再是阻礙的門檻，讓每個人都能有自己的網站！延續了帝國CMS、織夢CMS優秀的模版流程，模版頁面、模版變數等，讓熟悉帝國、織夢的朋友，直接就能使用！線上快速體驗網址： http://wa

Django框架學習01--環境搭建和檢視（修改版）

Python框架之Django01–環境搭建一、一般公司結構簡介在接觸python框架學習之前，首先要清楚我們做專案的基本架構，專案組以及公司的基本分類。下面我簡單做一下梳理，僅供參考。 1.專案組（1）產品---2個人，提需求（女生為主）（2）測試----

Scrapy框架的學習(6.item介紹以及items的使用（提前定義好欄位名）)

有多個爬蟲時Item的處理

相關推薦