記錄scrapy爬蟲犯的部分資料重複錯誤
阿新 • • 發佈:2021-01-09
scrapy 爬蟲在爬取列表頁時,發現有部分資料是重複的,找啊找啊發現,在寫for 迴圈時將item放到了for迴圈外面,程式碼如下:
def parse_list(self, response):
item = DataItem()
if response.status != 200:
print(response.status)
else:
datas = json.loads(response.text)['result']['data' ]
for data in datas:
item['mid'] = data['upper_mid']
因為習慣性將item放到前面來信:如下
所以導致爬取結果出現重複,
只需將item放到for 迴圈裡面
def parse_list(self, response):
if response.status != 200:
print(response.status)
else:
datas = json.loads(response.text)['result' ]['data']
for data in datas:
item = DataItem()
item['mid'] = data['upper_mid']
啊,寫這個文章提醒提醒自己