1. 程式人生 > 其它 >記錄scrapy爬蟲犯的部分資料重複錯誤

記錄scrapy爬蟲犯的部分資料重複錯誤

技術標籤:pythonscrapypython

scrapy 爬蟲在爬取列表頁時,發現有部分資料是重複的,找啊找啊發現,在寫for 迴圈時將item放到了for迴圈外面,程式碼如下:

    def parse_list(self, response):
        item = DataItem()
        if response.status != 200:
            print(response.status)
        else:
            datas = json.loads(response.text)['result']['data'
] for data in datas: item['mid'] = data['upper_mid']

因為習慣性將item放到前面來信:如下
在這裡插入圖片描述
所以導致爬取結果出現重複,
只需將item放到for 迴圈裡面

    def parse_list(self, response):
        if response.status != 200:
            print(response.status)
        else:
            datas = json.loads(response.text)['result'
]['data'] for data in datas: item = DataItem() item['mid'] = data['upper_mid']

啊,寫這個文章提醒提醒自己