解決Scrapy效能問題——案例五（Item併發太多導致溢位）

阿新 • • 發佈：2019-01-09

症狀：爬蟲對於每個Response都產生了多個Item，系統的吞吐量比期望的要低，並且可能會出現和前一個案例相同的下載器開/關現象。

示例：這裡我們假設有1000個請求，每個返回的頁面有100個Item，響應時間為0.25s，Item在pipeline中的處理時間為3s。分別把CONCURRENT_ITEMS設定成從10到150的值來執行爬蟲：

for concurrent_items in 10 20 50 100 150; do
time scrapy crawl speed -s SPEED_TOTAL_ITEMS=100000 -s \
SPEED_T_RESPONSE=0.25 -s SPEED_ITEMS_PER_DETAIL=100 
 -s \
SPEED_PIPELINE_ASYNC_DELAY=3 -s \
CONCURRENT_ITEMS=$concurrent_items
done
...

結果如下：

s/edule d/load scrape p/line done mem
952 16 32 180 0 243714
920 16 64 640 0 487426
888 16 96 960 0 731138
...

這裡寫圖片描述

討論：需要再次提醒一下的是，這隻適於用你的爬蟲對每個響應都會產生很多Item的情況。如果不是這種情況，把CONCURRENT_ITEMS設定成1就相當於這種情況了。

第一個注意到的是，p/line列的數值和scape

列的數值存在著某種關係，p/line = CONCURRENT_ITEMS · scape，這種我們所期望的一樣，因為scape表示的是Response的數目而p/line表示的是Item的數目。

第二個有趣的事是圖11中的效能曲線，雖然圖的縱軸已經經過了縮放，以便更好地展示不同設定之間的差別，但是實際上差別並沒有那麼大。從圖上可以看出，在座標軸左側的延遲很高，因為Item不能及時地處理導致Response物件積壓以致於達到了記憶體的限制（前一個案例講過）；而在座標軸的右邊是因為併發的數目太多，使用了太多的CPU。不過把效能正好高估在某個最優點上也不是那麼重要，因為在實際使用中，很容易地就往左或者往右偏移了一點。

解決方法：如果CPU的使用率很高，那就減小CONCURRENT_ITEMS的值；如果達到了Response物件的5MB的記憶體限制，說明你的pipeline的吞吐量跟不上下載器的吞吐量了，那就增加CONCURRENT_ITEMS的值，以加快處理Response的速度。如果設定這個CONCURRENT_ITEMS的值還是沒有作用，那就看一下前一個案例中的建議，並仔細地分析一下你的scraper的吞吐量是否能被其餘的系統所支撐。

解決Scrapy效能問題——案例五（Item併發太多導致溢位）

解決Scrapy效能問題——案例五（Item併發太多導致溢位）

解決Scrapy效能問題——案例四（響應太多導致溢位）

解決Scrapy效能問題——案例一（CPU飽和）

Hadoop單點部署與案例開發（微博用戶數據分析）

JAVA中反射機制五（JavaBean的內省與BeanUtils庫）

解決全站字符亂碼（POST和GET中文編碼問題）

個人作業——軟件產品案例分析（華為軟件開發雲）

C#復習筆記（3）--C#2：解決C#1的問題（進入快速通道的委托）

簡單演示django使用之五--（django概用完結總結篇）

高併發的實現（非同步化+快取+多執行緒）

從零開始搭建django前後端分離專案系列五（實戰之excel流式匯出）

視訊第13章（高併發之訊息佇列思路）

頻率域濾波基礎之五（讀數字影象處理學習halcon）

ImportError: No module named cv2的完美解決方法！！！（不能太贊）

VS2013/MFC程式設計入門之十五（對話方塊：訊息對話方塊）

傳輸層學習之五（TCP的SACK，F-RTO）

Python:pygame遊戲程式設計之旅五（遊戲介面文書處理詳解）

Dubbo學習系列之十五（Seata分散式事務方案TCC模式）

Linux命令累積（每天都更新多一些東西）

Max Points on a Line（直線上最多的點數）

解決Scrapy效能問題——案例五（Item併發太多導致溢位）

相關推薦