一次使用scrapy的問題記錄

前景描述:

需要獲取某APP的全國訂單量，及搶單量。由於沒有全國的選項所以只能分別對每一個城市進行訂單的遍歷。爬蟲每天執行一次，一次獲取48小時內的訂單，從資料庫中取出昨天的資料進行對比，有訂單被搶則更新，無則不操作。(更新邏輯在這裡不重要，重要的是爬取邏輯)。每個訂單有釋出時間，根據釋出時間判斷，在48小時外的就停止爬取，開始爬取下一個城市。

先看第一版:

#spider

# 構造一些請求引數，此處省略
# 從配置中讀取所有城市列表
cities = self.settings['CITY_CH']

# end_signal為某個城市爬取完畢的訊號，
self.end_signal = False

for city in cities:
    # 通過for迴圈對每個城市進行訂單爬取
    post_data.update({'locationName':city})
    count = 1
    while not self.end_signas:
        post_data.update({'pageNum':str(count)})
        data = ''.join(json.dumps(post_data, ensure_ascii=False).split())
        sign = MD5Util.hex_digest(api_key + data + salt).upper()
        params = {
            'apiKey':api_key,
            'data':data,
            'system':system,
            'sign':sign
        }
        meta = {'page':count}
        yield scrapy.Request(url=url, method='POST', body=json.dumps(params, ensure_ascii=False),
                             headers=self.headers, callback=self.parse,meta=meta, dont_filter=True)
        count+=1
    self.end_signal = False

def parse(self,response):
    # 略

# 在spiderMiddleware中根據返回的item中的訂單時間進行判斷(此處不詳寫)

def process_spider_output(self, response, result, spider):
    result_bkp = []
    for res in result:
        if res['order_time'] < before_date(2): #before_date為自定義的時間函式
            logger.info("{%s}爬取完畢，開始爬取下一個城市" % (res['city_name']))
            spider.end_signal = True
            break
        result_bkp.append(res.copy())
    return result_bkp

乍一看沒有問題，遍歷每個城市，再到解析解析完後返回item到spiderMiddleware中進行判斷訂單是否超過48小時，超過就設定self.end_signal為True跳出spider中的while迴圈，注意while迴圈後面又將這個引數設定False然後下個城市的迴圈就開始了。
問題來了：
spider中將request返回出去新增到佇列中，這裡有一個佇列，當response下載好返回回來通過parse函式去處理的時候也有一個佇列，眾所周知運氣不好的人總會偶爾遇到一點網路問題，來舉個栗子就清楚了
栗子：spider中將城市A的1、2、3訂單頁(2、3為超過48小時的訂單頁)，新增到佇列中，下載器去下載的時候可能第2頁代理掛了，第三頁超過48小時，中介軟體判斷成功設定self.end_signal=True

進行下一個城市的爬取。城市B添加了1、2、3(都在48小時內)，這個時候城市A的第二頁訂單下載完成了在中介軟體中判斷又將self.end_signal=True ，於是城市B後面的訂單也就都沒了，都沒了。。。，直接開始了下一個城市的訂單！

一版總結:

不要在一個非同步的程式中通過一個全域性變數去控制整個程式的流程。(總結的不好，可以幫我總結一下)

第二版:

既然不能通過全域性變數來控制，那能不能讓每個城市帶一個標識來指明訂單爬取結束。
先看程式碼

#spider
cities = self.settings['CITY_CH']

# end_signal為某個城市爬取完畢的訊號，
self.end_signal = False

for city in cities:
    # 通過for迴圈對每個城市進行訂單爬取
    post_data.update({'locationName':city})
    count = 1
    print(cities)
    print(city)
    while in cities:
        post_data.update({'pageNum':str(count)})
        data = ''.join(json.dumps(post_data, ensure_ascii=False).split())
        sign = MD5Util.hex_digest(api_key + data + salt).upper()
        params = {
            'apiKey':api_key,
            'data':data,
            'system':system,
            'sign':sign
        }
        meta = {'page':count}
        yield scrapy.Request(url=url, method='POST', body=json.dumps(params, ensure_ascii=False),
                             headers=self.headers, callback=self.parse,meta=meta, dont_filter=True)
        count+=1
    self.end_signal = False

def parse(self,response):
    # 略

# 在spiderMiddleware中根據返回的item中的訂單時間進行判斷(此處不詳寫)

def process_spider_output(self, response, result, spider):
    result_bkp = []
    for res in result:
        if res['order_time'] < before_date(2): #before_date為自定義的時間函式
            if res['city_name'] in spider.cities:
                spider.cities.remove(res['city_name'])
                logger.info("{%s}爬取完畢，開始爬取下一個城市" % (res['city_name']))
            break
        result_bkp.append(res.copy())
    return result_bkp

看邏輯也有點意思，判斷這個城市是否在列表中，在的話說明還沒爬取完畢，爬取完畢了就刪除這個城市。嗯！執行一下！

有意思的來了，第一個城市爬取正常，第二個城市不見了,上訴程式碼中列印的城市沒有顯示第二個城市，直接跳到了最後一個(設就三個城市) 怎麼被吞了呢。
敏感資料就不截圖了。

可以看到列印的城市列表中明明還有北京的沒有被刪除，為啥直接到最後一個城市了呢？
可能有大佬已經看出來了，我是生生打斷點除錯了半天，甚至懷疑是for迴圈內部有什麼bug。
最後靈機一動(滑稽)，難倒是因為城市列表的問題？我for迴圈它，然後又在他內部去刪除它裡面的元素，可以這樣嗎？
寫個demo測試一下

cities = ['鞍山', '北京', '昆玉',]

for city in cities:
    cities.remove('鞍山')
    print(city)

# 錯誤就來了！ 果然不能在迴圈它的時候再對它進行刪除操作
ValueError: list.remove(x): x not in list

至於在執行scrapy的時候為什麼沒有報這個錯誤，可能是在別的地方做了異常處理，但是有這個問題在，我們先去修復它一下。
將for city in cities改為for city in cities.copy(),完美解決！！！
還有一個小點就是python的值傳遞和地址傳遞，在處理item的時候要注意。

相關推薦

我的最長一次面試記錄

早上10點30進入公司，開始一輪一輪面試，之後我面試後，我把面試題目記錄下，希望對自己能力有所提高： 1、python小題目： a、實現list把不重複的打印出來。b、實現自定義count函式c、統計list每個字母出現的次數d、多執行緒實現介面請求（java/python）我這邊通過內部類實現n

一次隨筆記錄

專案經驗方面大廠職級，大平臺規模系統開發經驗；行業視野【欠缺、一般】成長動力【不足、一般】職業規劃【模糊、有、無】技術方面技術基礎技術研究深度獨立思考能力【欠缺、一般】軟技能方面

nginx的一次工作記錄

upstream fazhi_ui{ server 172.17.1.188:8181; } upstream fazhi_api{ server 172.17.1.188:8181; } server { l

一次經驗記錄--Linux環境安裝vue.js

1.首先建議node.js安裝6.x版從nodejs官網(http://nodejs.cn/download/)下載安裝包解壓之後做link ln -s /home/node/node-v6.11.5-linux-x86/bin/npm /usr/local/bin

一次國際化記錄以及平鋪JSON數據

inside new 其他 tolower 總結方便 scrip 再看 rev ? 寫這個方法的原因是因為我們需要改版國際化，因為相同的項目有其他分支做過國際化，但是主版本沒有進行過國際化，目前需要修改主版本的國際化，但是因為國際化的方式做了結構上的調整所以寫了這個工具

一次使用scrapy的問題記錄

前景描述: 需要獲取某APP的全國訂單量，及搶單量。由於沒有全國的選項所以只能分別對每一個城市進行訂單的遍歷。爬蟲每天執行一次，一次獲取48小時內的訂單，從資料庫中取出昨天的資料進行對比，有訂單被搶則更新，無則不操作。(更新邏輯在這裡不重要，重要的是爬取邏輯)。每個訂單有釋出時間，根據釋出時間判斷，在48小

記錄一次“記錄超長”

har 語句類型執行如果可能事情縮小百度 Jdbc報錯“記錄超長”，百度一下推測可能是因為SQL過長導致；但是後來經過老杜指點，發現原來是因為字段（varchar 8000）超長導致；解決問題的套路： 1. 首先在Sql的客戶端上執行代碼；如果不錯，說明還是

[邏輯漏洞]記錄一次挖洞

9.png 列表一次查詢 urn 找到 ima sting .com 陽光明媚的早上，turn on the PC and 隨意地瀏覽著以往漏洞列表，希望在裏面找到一些遺忘的痕跡。果然，我發現一個被忽略的漏洞，一個暴露在外網的的一個接口，可以查詢該企業網站是否註冊了的

Eclipse使用Maven2的一次環境清理記錄

應用 jar 清理 repos pps entry cat maven true 1. C:\Users\Administrator\.m2\repository\com\yuanchuangyun\[module,yuanchuangyun-*]相關目錄全刪除。2. D:

簡單記錄一次REDO文件損壞報錯 ORA-00333重做日誌讀取塊出錯

clas 後者利用實例恢復 poi cancel true cover html 一.故障描寫敘述首先是實例恢復須要用到的REDO文件損壞二、解決方法 1.對於非當前REDO或者當前REDO可是無活動事務使用下面CLEAR命令：用CLEAR命令重建該日誌

記錄一次配置http跳轉https的過程

http https 網站跳轉公司最近搞了一個數據運營平臺，這個平臺會以web界面的形式把各個數據展示出來，這個項目是我們一個經理的重點關照項目。把平臺模塊部署完畢並且啟動之後，又把這個平臺服務器的外網IP綁定到alkaid.lechange.com這個域名上，在瀏覽器裏輸入https://al

記錄一次concurrent mode failure問題排查過程以及解決思路

tails only cnblogs 策略 executor red execute incr run 背景：後臺定時任務腳本每天淩晨5點30會執行一個批量掃庫做業務的邏輯。 gc錯誤日誌： 2017-07-05T05:30:54.408+0800: 518534

記錄一次MySQL進程崩潰，無法重啟故障排查

not pool function 解決 variables fail data class 緩沖最近程序在跑著沒幾天，突然訪問不了，查看應用進程都還在。只有數據庫的進程down掉了。於是找到日誌文件看到如下錯誤 2017-07-24 01:58:53 19934 [N

記錄一次處理https監聽不正確的過程

負載均衡 https 502 nginx 金山雲今天開發反饋在測試金山雲設備的時候遇到了這樣的一個現象：wget https://funchlscdn.lechange.cn/LCLR/2K02135PAK01979/0/0/20170726085033/dev_201707260850

記一次socket_create()函數耗時異常記錄

des inpu 100% 可能應用程序解釋一次 urn 異常背景：下午開發時突然整個頁面耗時增加，空接口每次都需要2-3秒的耗時，一開始以為連開發環境數據庫出現問題，最後斷開數據庫跑，發現還是很慢最終逐步調試此頁面耗時，定位到了socket_c

記錄一次基於LV塊做存儲介質的KVM擴容過程

kvm擴容基於lv的kvm擴容 kvm硬盤擴容從下圖可看出盤已經不夠用了然後到宿主機執行LVM擴展Lv 擴充過程略然後擴容完，在虛擬機上執行fdils –l在宿主機擴容的LV在虛擬機裏已經有容量顯示，但我們的分區仍然沒有被顯示出來還是原來的310G因為這個分區在分時考慮到後期的擴充，所以用了G

記錄一次服務器被攻擊

服務器攻擊肉雞公司一臺服務器從某一個時間開始，突然在每天不定期出現磁盤io和進程數的告警，初期進行查看，並未發現問題，暫時擱置。每次告警時間都很短暫，所以很難在系統出現告警時登錄查看。而且由於在忙其他事情，這件事也一直沒有仔細去查。登錄檢查的時候發現有一個分區磁盤滿了

Tomcat8連接Redis3的一次報錯記錄

tomcat8 redis3最近兩天在測試tomcat8配合Redis做session共享，今天調試的過程中發現如下報錯：一開始我以為是我以為是自己Tomcat連接redis的某一部分出現了問題，排查發現提示是連接不到redis的pool，然後我使用telnet了下redis的6379，意料之外，居然不通，查

記錄一次https證書申請失敗的案例

hydra tor 一次申請目錄 tin site text auto 部分站點由於使用了大量的域名，會導致 auto-ssl 配置的內存不夠用，導致證書申請失敗。需要做以下調整 nginx.conf 中 lua_shared_dict auto_ssl 調整為 128

記錄一次mysql 5.7 max_allowed_packet修改失敗的問題

packet for query is too large (2010 > 1024) mysql 5.7 max_allowed_packet今天我的客戶給我反饋說報錯 ### Error querying database. Cause: com.mysql.jdbc.PacketTooBigEx