Scrapy框架自定義pipeline兩層下載路徑去下載圖片，關於item傳值的問題

阿新 • • 發佈：2018-12-19

自定義兩層路徑的時候，item是需要經過傳值的，爬蟲函式如下

import scrapy
from urllib.request import urljoin
from ..items import OffmymindspiderItem
class OffmymindSpider(scrapy.Spider):
    name = 'offmymind'
    allowed_domains = ['www.biaobaiju.com']
    start_urls = ['http://www.biaobaiju.com/']

    def parse(self, response):
        """
        獲取每個分類的地址和分類的名稱
        :param response:
        :return:
        """
        a_list = response.xpath("//ul[@class='nav clearfix']/li/a")
        for a in a_list:
            img_type_url = a.xpath("@href").extract_first("")
            img_type_name = a.xpath("text()").extract_first("")
            yield scrapy.Request(url=img_type_url, dont_filter=False, callback=self.parse_img_type_info, meta={"img_type_name":img_type_name})

    def parse_img_type_info(self, response):
        """
        解析每個分類地址的原始碼,並取出每個圖片集連結的網址
        :param response:
        :return:
        """
        div_list = response.xpath("//ul[@id='container']/li/div[2]")
        #因為parse（）裡item的值是不能丟棄的，所以在這需要用item接收一下，將meta裡的值取出來，然後在parse_img_type_info（）裡給item再新增一個鍵值對（第二層路徑），通過request一塊傳給下一個函式。
        item = response.meta
        #取每一頁中的小分類的url地址
        for div in div_list:
            img_small_type_href = div.xpath("a/@href").extract_first("")
            img_small_type_name = div.xpath("a/text()").extract_first("")
            item["img_small_type_name"] = img_small_type_name
            yield scrapy.Request(url=img_small_type_href, dont_filter=True, callback=self.parse_every_small_type_info, meta=item)
        #判斷是否有下一頁；由於頁數較多，這段程式碼沒有執行，只下載每個分類的第一頁
        # href = response.xpath("//ul[@class='pagination']/li[last()]/a/@href").extract_first("")
        # if href=="":
        #     print("沒有下一頁了!")
        # elif href!="":
        #     next_page_url = urljoin(response.url,href)
        #    #需要呼叫自身，即下載完第一頁的圖片後，判斷是否有下一頁，有的話在呼叫parse_img_type_info（），然後下載第二頁的圖片
        #     yield scrapy.Request(url=next_page_url, dont_filter=True, callback=self.parse_img_type_info, meta=item)

    def parse_every_small_type_info(self, response):
        """
        解析每個小分類地址的圖片網址
        :return:
        """
        # 只取第一頁的圖片
        # print(response)
        p_list = response.xpath("//div[@class='content tag_blue']/p")
        for p in p_list:
            img_url = p.xpath("img/@src").extract_first("")
            if img_url=="":
                del img_url
            elif img_url!="":
                item = OffmymindspiderItem()
                item["img_url"] = [img_url]
                #img_type_name,img_small_type_name是以字典的形式存放在meta中的,屬於response
                item["img_small_type_name"] = response.meta.get("img_small_type_name")
                item["img_type_name"] = response.meta.get("img_type_name")
                yield item

items.py中的程式碼

import scrapy
class ZhanzhangsucaispiderItem(scrapy.Item):
    name = scrapy.Field()
    img_url = scrapy.Field()
    img_path = scrapy.Field()

settings.py中修改的內容

ROBOTSTXT_OBEY = False#第22行需要改成False

#第67行
ITEM_PIPELINES = {
   'OffMyMindSpider.pipelines.CustomImagesPipeline': 300,
}
IMAGES_STORE = "imgs"

pipelines.py中的程式碼

from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem
import scrapy
class CustomImagesPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        for img_download_url in item.get("img_url"):
            yield scrapy.Request(url=img_download_url, meta={"item":item})

    def file_path(self, request, response=None, info=None):
        # print(request)
        #將item取出來
        item = request.meta["item"]
        img_type_name = item["img_type_name"]
        img_small_type_name = item["img_small_type_name"]
        #img_url存放在列表中
        img_url = item.get("img_url")[0].split("/")[-1]
        return "%s/%s/%s"%(img_type_name, img_small_type_name, img_url)

    def item_completed(self, results, item, info):
        print("---")
        img_path = results[0][1].get("path")
        if not img_path:
            raise DropItem("Image download failed, delete the corresponding item value, do not let it return out")
        item["img_path"] = img_path
        return item

具體內容的註釋可以參考連結:https://mp.csdn.net/postedit/84668344

Scrapy框架自定義pipeline兩層下載路徑去下載圖片，關於item傳值的問題

自定義兩層路徑的時候，item是需要經過傳值的，爬蟲函式如下 import scrapy from urllib.request import urljoin from ..items import OffmymindspiderItem class OffmymindSpider(scra

自定義寬高比例的view（輪播圖，item等）

為解決輪播圖、listview中的item，放在不通解析度的手機上會出現拉伸變形。比較簡單不多說下邊直接貼程式碼關於下邊方法中 - getPaddingLeft() - getPaddingRight()後又加上是因為如果view中設定了padding 則會改

自定義URL Protocol呼叫Winfrom程式（exe）並實現傳值——類似網頁連結呼叫QQ、旺旺

近日專案（B/S）中Webform需要呼叫Winform程式，並傳遞身份等資訊。C#中提供了一個函式System.Diagnostics.Process可以直接呼叫本機exe程式並實現傳值。用法如下： Process.Start(@"D:\程式名.exe",

scrapy自定義pipeline下載圖片/文件

自定義圖片/文件下載pipeline，自定義一個自己需要的路徑來儲存下載的圖片/文件自定義pipeline可以基於scrapy自帶的ImagesPipeline的基礎上完成。可以重寫ImagesPipeline中的三個法:get_media_requests(),file_path(),

scrapy中自定義下載中介軟體設定動態User-Agent和代理ip

''' scrapy 自定義下載中介軟體動態設定User-Agent ''' import random class RandomUserAgent: def __init__(self, agents): self.agents = agent

ci框架自定義數據庫查詢名稱（方法）

cti 子目錄 ons pos 傳遞 sele 傳遞參數 ren 基礎適合剛接觸PHP和ci框架的人，本人也是小白原因：官方給的數據庫查詢方法可能不利於記憶使用，官方給的一些方法只能進行基礎查詢，每次復合查詢都需要拼接條件，自己定義定義方法直接調用方法即可操作步驟：

yii 框架自定義規則客戶端驗證

esp 失去屬性 sbo sid func 需要當前條件前提：yii 自定義規則不能通過失去焦點驗證 view層中：設置form的3個屬性，validationUrl 可以不設置，默認為當前頁面，但是一般情況驗證不會跟提交數據在一個方法中處理 $form = zA

pe框架自定義jsp標簽

apple object alias 賬戶 hang ada lec post 業務邏輯以最常見的獲取賬號列表為例子：　　　　引入標簽，prefix可以理解成別名，或者對象，使用時類似對象.成員。 <%@ taglib prefix="pe" uri="/WE

自定義用戶層的靈活性串口通信協議

color 取數據 borde 代碼 pack 心得常見定義如果想不到第一次接觸串口就要去寫一個自定義的靈活性串口通信協議，所以在這裏記錄一下自己的心得，有什麽不合理的地方還請大佬們指出。先說明這裏提到的靈活性其實也是相對來說的，並不是說明數據包都可以定義。

Scrapy框架中的Pipeline組件

object OS @class ror inter setting ima utf8 encoding 簡介在下圖中可以看到items.py與pipeline.py，其中items是用來定義抓取內容的實體；pipeline則是用來處理抓取的item的管道 Item管道

scrapy通過自定義類給爬取的url去重

之前我們是通過在parse函式裡設定集合來解決url去重的問題。首先先在根目錄中建立一個新的duplication的py檔案，在from scrapy.dupefilter import RFPDupeFilter，在RFPDupeFilter原始碼中把BaseDupeFilter類複製到新建

Spring Data Jpa框架自定義查詢語句返回自定義實體的解決方案

在使用Spring Data Jpa框架時，根據業務需求我們通常需要進行復雜的資料庫查詢，並返回我們自定義的實體類，而在該框架下，目前僅僅支援返回與資料庫對映進行持久化的POJO實體。雖然在框架上我們可以使用@Query註解執行我們自定義的sql語句，但是其返回值為List<Object[

微信小程式-自定義彈出層

效果圖 WXML <view class='popup' wx:if="{{popShow}}"> <view class='mask' catchtouchmove="preventTouchMove" catchtap='closePop'&g

react+webpack+antd框架自定義使用阿里iconfont圖示。

1. 首先開啟iconfont，找到我們需要的icon，如果要icon跟隨字型選中狀態的顏色改變而改變，儘量使用單色圖示。如圖： 2、加入購物車之後，點選下載程式碼，放到桌面，將資料夾下的iconfont.js檔案引入專案中，我一般放在util資料夾下，如圖： 3、在需要的.jsx頁面下引

智聯招聘抓取---scrapy框架和requests庫兩種方式實現

#首先分析目標站點，分析得出結果是在json接口裡，然後抓取企業資訊需要再次請求頁面進行抓取 #1.直接requests請求進行抓取儲存 ##需要注意點：可能不同企業單頁排版不一樣，需要判斷採取不同形式儲存為csv檔案注意格式，保證資料表格不換行需要新增

（springboot）shiro安全框架自定義過濾器出現的幾個疑難雜症解決方案

問題一：多次重複重定向問題（匹配多個過濾器鏈重複呼叫其對應過濾器）問題二：shiro認證時Realm會執行兩次在使用springboot框架整合shiro安全認證框架時踩了很多坑，每次出問題網上都找不到其中的解決方案，這裡貼兩個我遇到的坑，以及其解決方案給大家，希望大

Android使用Vitamio框架自定義視訊播放器

做過Android視訊播放器的碼農們都或多或少知道自帶的VideoView用著沒有那麼順心。需要處理很多東西。於是就各種度娘、Google。終於皇天不負苦心人。找到了一個卻又不大符合。無奈，想自己動手寫吧！又浪

自定義Web框架自定義Web框架

自定義Web框架 http協議 HTTP簡介 HTTP協議是Hyper Text Transfer Protocol（超文字傳輸協議）的縮寫,是用於從全球

Android架構分析之使用自定義硬體抽象層(HAL)模組

作者：劉昊昱 Android版本：2.3.7_r1 Linux核心版本：android-goldfish-2.6.29 在上一篇部落格《》中，我們瞭解了硬體抽象層的基本資料結構和模組編寫規則，現在，我們就來看怎樣編寫一個自定義的硬體抽象層模組並加入到Android

Shiro安全框架--自定義認證

上一篇簡單的介紹了Shiro的基礎認證,這一篇就簡單的舉個自定義認證的例子 1.和之前一樣先引入依賴:  <dependency> <groupId&

Scrapy框架自定義pipeline兩層下載路徑去下載圖片，關於item傳值的問題

相關推薦