解讀scrapy框架

阿新 • • 發佈：2019-01-06

article head import segment tex .get all 停止 deferred

scrapy框架基礎：Twsited

scrapy內部基於事件循環的機制實現爬蟲的並發。
原來：

url_list = [‘http://www.baidu.com‘,‘http://www.baidu.com‘,‘http://www.baidu.com‘,]

for item in url_list:
　　response = requests.get(item)
　　print(response.text)

原來執行多個請求任務

現在：

from twisted.web.client import 
 getPage, defer
from twisted.internet import reactor

# 第一部分：代理開始接收任務
def callback(contents):
　　print(contents)

deferred_list = [] # [(龍泰,貝貝),(劉淞，寶件套),(呼呼,東北)]
url_list = [‘http://www.bing.com‘, ‘https://segmentfault.com/‘,‘https://stackoverflow.com/‘ ]
for url in url_list:
　　deferred = getPage(bytes(url, encoding=‘ 
utf8‘)) # (我,要誰)
　　deferred.addCallback(callback)
　　deferred_list.append(deferred)


# # 第二部分：代理執行完任務後，停止
dlist = defer.DeferredList(deferred_list)

def all_done(arg):
　　reactor.stop()

dlist.addBoth(all_done)

# 第三部分：代理開始去處理吧
reactor.run()

twisted

什麽是twisted？

官方：基於事件循環的異步非阻塞模塊。
白話：一個線程同時可以向多個目標發起Http請求。

非阻塞：不等待，所有請求同時發出。  我向請求A、請求B、請求C發起連接請求的時候，不等連接返回結果之後再去連下一個，而是發送一個之後，馬上發送下一個。

import socket 
sk = socket.socket()
sk.setblocking(False)
sk.connect((1.1.1.1,80))

import socket 
sk = socket.socket()
sk.setblocking(False)
sk.connect((1.1.1.2,80))

import socket 
sk = socket.socket()
sk.setblocking(False)
sk.connect((1.1.1.3,80))

socket非阻塞

異步：回調。我一旦幫助callback_A、callback_B、callback_F找到想要的A，B,C，我會主動通知他們。

def callback(contents):
    print(contents)

callback

事件循環: 我，我一直在循環三個socket任務（即：請求A、請求B、請求C），檢查他三個狀態：是否連接成功；是否返回結果。

  scrapy                                                                  

  一.命令

scrapy startproject xx   # 創建項目
cd xx 　　　　　　　　　　　# 進入項目目錄
scrapy genspider chouti chouti.com   # 創建spider
“““編寫爬蟲”””
scrapy crawl chouti --nolog 　　# 開啟爬蟲

二. 編寫

def parse(self,response):
1. 響應：

# 1.響應
# response封裝了響應相關的所有數據：
    - response.text 
    - response.encoding
    - response.body 
　　 - response.meta[‘depth‘:‘深度‘]
    - response.request # 當前響應是由那個請求發起；請求中 封裝（要訪問的url，下載完成之後執行那個函數）

2. 解析

response.css(‘...‘) 返回一個response xpath對象
response.css(‘....‘).extract() 返回一個列表
response.css(‘....‘).extract_first() 提取列表中的元素

def parse_detail(self, response):
        # items = JobboleArticleItem()
        # title = response.xpath(‘//div[@class="entry-header"]/h1/text()‘)[0].extract()
        # create_date = response.xpath(‘//p[@class="entry-meta-hide-on-mobile"]/text()‘).extract()[0].strip().replace(‘·‘,‘‘).strip()
        # praise_nums = int(response.xpath("//span[contains(@class,‘vote-post-up‘)]/h10/text()").extract_first())
        # fav_nums = response.xpath("//span[contains(@class,‘bookmark-btn‘)]/text()").extract_first()
        # try:
        #     if re.match(‘.*?(\d+).*‘, fav_nums).group(1):
        #         fav_nums = int(re.match(‘.*?(\d+).*‘, fav_nums).group(1))
        #     else:
        #         fav_nums = 0
        # except:
        #     fav_nums = 0
        # comment_nums = response.xpath(‘//a[contains(@href,"#article-comment")]/span/text()‘).extract()[0]
        # try:
        #     if re.match(‘.*?(\d+).*‘,comment_nums).group(1):
        #         comment_nums = int(re.match(‘.*?(\d+).*‘,comment_nums).group(1))
        #     else:
        #         comment_nums = 0
        # except:
        #     comment_nums = 0
        # contente = response.xpath(‘//div[@class="entry"]‘).extract()[0]
        # tag_list = response.xpath(‘//p[@class="entry-meta-hide-on-mobile"]/a/text()‘).extract()
        # tag_list = [tag for tag in tag_list if not tag.strip().endswith(‘評論‘)]
        # tags = ",".join(tag_list)
        # items[‘title‘] = title
        # try:
        #     create_date = datetime.datetime.strptime(create_date,‘%Y/%m/%d‘).date()
        # except:
        #     create_date = datetime.datetime.now()
        # items[‘date‘] = create_date
        # items[‘url‘] = response.url
        # items[‘url_object_id‘] = get_md5(response.url)
        # items[‘img_url‘] = [img_url]
        # items[‘praise_nums‘] = praise_nums
        # items[‘fav_nums‘] = fav_nums
        # items[‘comment_nums‘] = comment_nums
        # items[‘content‘] = contente
        # items[‘tags‘] = tags

xpath解析jobble 技術分享圖片

# title = response.css(‘.entry-header h1::text‘)[0].extract()
        # create_date = response.css(‘p.entry-meta-hide-on-mobile::text‘).extract()[0].strip().replace(‘·‘,‘‘).strip()
        # praise_nums = int(response.css(".vote-post-up h10::text").extract_first()
        # fav_nums = response.css(".bookmark-btn::text").extract_first()
        # if re.match(‘.*?(\d+).*‘, fav_nums).group(1):
        #     fav_nums = int(re.match(‘.*?(\d+).*‘, fav_nums).group(1))
        # else:
        #     fav_nums = 0
        # comment_nums = response.css(‘a[href="#article-comment"] span::text‘).extract()[0]
        # if re.match(‘.*?(\d+).*‘, comment_nums).group(1):
        #     comment_nums = int(re.match(‘.*?(\d+).*‘, comment_nums).group(1))
        # else:
        #     comment_nums = 0
        # content = response.css(‘.entry‘).extract()[0]
        # tag_list = response.css(‘p.entry-meta-hide-on-mobile a::text‘)
        # tag_list = [tag for tag in tag_list if not tag.strip().endswith(‘評論‘)]
        # tags = ",".join(tag_list)
        # xpath選擇器 /@href    /text()

css解析jobbole 技術分享圖片

    def parse_detail(self, response):
        img_url = response.meta.get(‘img_url‘,‘‘)
        item_loader = ArticleItemLoader(item=JobboleArticleItem(), response=response)
        item_loader.add_css("title", ".entry-header h1::text")
        item_loader.add_value(‘url‘,response.url)
        item_loader.add_value(‘url_object_id‘, get_md5(response.url))
        item_loader.add_css(‘date‘, ‘p.entry-meta-hide-on-mobile::text‘)
        item_loader.add_value("img_url", [img_url])
        item_loader.add_css("praise_nums", ".vote-post-up h10::text")
        item_loader.add_css("fav_nums", ".bookmark-btn::text")
        item_loader.add_css("comment_nums", "a[href=‘#article-comment‘] span::text")
        item_loader.add_css("tags", "p.entry-meta-hide-on-mobile a::text")
        item_loader.add_css("content", "div.entry")
        items = item_loader.load_item()
        yield items

item_loader版本

3. 再次發起請求

　　yield Request(url=‘xxxx‘,callback=self.parse)
　　yield Request(url=parse.urljoin(response.url,post_url), meta={‘img_url‘:img_url}, callback=self.parse_detail)

解讀scrapy框架

article head import segment tex .get all 停止 deferred scrapy框架基礎：Twsited s

Scrapy框架解讀

學習python網路爬蟲怎能不知道Scrapy這種簡單易用的框架呢？今天我就給大家解讀一下Scrapy這個框架。Scrapy是一款優秀的開源框架，由python開發，集螢幕抓取與web抓取與一身的優秀爬蟲框架，操作簡單，拓展方便。Scrapy用途廣泛，除了可以進行網頁抓取資料

10 scrapy框架解讀--深入理解爬蟲原理

scrapy框架結構圖: 組成部分介紹: Scrapy Engine：負責元件之間資料的流轉，當某個動作發生時觸發事件 Scheduler：接收requests，並把他們入

scrapy框架設置代理

ase param his utf-8 httpproxy down json eth head 網易音樂在單ip請求下經常會遇到網頁返回碼503的情況經查詢，503為單個ip請求流量超限，猜測是網易音樂的一種反扒方式因原音樂下載程序采用scrapy框架，所以需要在scra

初次接觸scrapy框架

self 文件夾內容 bsp mil 分享 response 記事本寫入初次接觸這個框架，先訂個小目標，抓取QQ首頁，然後存入記事本。安裝框架（http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.htm

Python爬蟲從入門到放棄（十一）之 Scrapy框架整體的一個了解

object 定義 roc encoding eth obi pipe pos 等等這裏是通過爬取伯樂在線的全部文章為例子，讓自己先對scrapy進行一個整理的理解該例子中的詳細代碼會放到我的github地址：https://github.com/pythonsite/

Python爬蟲從入門到放棄（十三）之 Scrapy框架的命令行詳解

directory xpath idf 成了 spider i386 名稱 4.2 不同的這篇文章主要是對的scrapy命令行使用的一個介紹創建爬蟲項目 scrapy startproject 項目名例子如下： localhost:spider zhaofan$ sc

第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄—獲取Scrapy框架Cookies

pid 設置 ade form 需要 span coo decode firefox 第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄模擬瀏覽器登錄 start_requests()方法，可以返回一個請求給爬蟲的起始網站，這個返回的請求相

爬蟲——Scrapy框架案例一：手機APP抓包

debug domain hone targe allow topic document more ebs 以爬取鬥魚直播上的信息為例： URL地址：http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&of

爬蟲——Scrapy框架案例二：陽光問政平臺

web url地址 blog rem idt xpath disable ora ole 陽光熱線問政平臺 URL地址：http://wz.sun0769.com/index.php/question/questionType?type=4&page= 爬取字段：帖

mac os安裝scrapy框架

true ins 是否 bre 顯示 light cnblogs class 只需要因為Mac 自帶了python 2.7 所以只需要安裝pip包管理工具安裝scrapy就可以了 sudo easy_install pip 然後 pip install Scrap

安裝scrapy框架

pat 接口 rip path 2.7 win nload 令行 easy 前提安裝好python、setuptools。 1.安裝Python 安裝完了記得配置環境，將python目錄和python目錄下的Scripts目錄添加到系統環境變量的Path裏。在

用scrapy框架爬取映客直播用戶頭像

xpath print main back int open for pri nbsp 1. 創建項目 scrapy startproject yingke cd yingke 2. 創建爬蟲 scrapy genspider live 3. 分析http://www.i

Python3.6下scrapy框架的安裝

twisted 方法安裝 get ont 下載地址 .whl files link 解決問題首先考慮使用最簡單的方法安裝 pip install scrapy 命令安裝，提示 Failed building wheel for Twisted Microsof

初識 scrapy 框架 - 安裝

pac twisted pin 離線 con generate val images mark 前面豆子學習了基本的urllib的模塊，通過這個模塊可以寫一些簡單的爬蟲文件。如果要處理大中型的爬蟲項目，urllib就顯得比較low了，這個時候可以使用scrapy框架來實現，

scrapy框架系列 (2) 一個簡單案例

com 必須 res 逗號大致繼承中文 append .sh 學習目標創建一個Scrapy項目定義提取的結構化數據(Item) 編寫爬取網站的 Spider 並提取出結構化數據(Item) 編寫 Item Pipelines 來存儲提取到的Item(即結構化數據

scrapy框架系列 (4) Scrapy Shell

@class 元素 tid 之前 AR htm nbsp 招聘 cas Scrapy Shell Scrapy終端是一個交互終端，我們可以在未啟動spider的情況下嘗試及調試代碼，也可以用來測試XPath或CSS表達式，查看他們的工作方式，方便我們爬取的網頁中提取的數據。

scrapy框架系列 (5) Spider類

err pre inf ack tail ise dump 內容 sta Spider Spider類定義了如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進鏈接)以及如何從網頁的內容中提取結構化數據(爬取item)。換句話說，Spider就是您定義爬取的動作及

scrapy框架系列 (3) Item Pipline

comment 順序 spi .py ini params config con ensure item pipeline 當Item在Spider中被收集之後，它將會被傳遞到Item Pipeline，這些Item Pipeline組件按定義的順序處理Item。每個It

爬蟲系列---Scrapy框架學習

產生 follow everyone 頁面 pos per iso select -s 項目的需求需要爬蟲某網的商品信息，自己通過Requests,BeautifulSoup等編寫了一個spider，把抓取的數據存到數據庫裏面。跑起來的感覺速度有點慢，尤其是進入詳情頁

解讀scrapy框架

相關推薦