淘寶商品比價定向爬蟲
阿新 • • 發佈:2022-05-10
功能描述
目標:獲取淘寶搜尋頁面的資訊,提取其中的商品名稱和價格
理解:淘寶的搜尋介面
翻頁的處理
技術路線:requests-re
程式的結構設計
步驟1:提交商品搜尋請求,迴圈獲取頁面
步驟2:對於每個頁面,提取商品名稱和價格資訊
步驟3:將資訊輸出到螢幕上
主體框架
import requests import re def getHTMLText(url): print("") def parsePage(ilt,html): print("") def printGoodsList(ilt): print("") def main(): # 搜尋關鍵字 goods='書包' #向下爬取的深度 depth=2 start_url='https://s.taobao.com/search?q='+goods #整個輸出結果 infoList=[] #對每一頁單獨處理 for i in range(depth): try: url=start_url+'&s='+str(44*i) #獲取頁面 html=getHTMLText(url) # 處理每個頁面的解析過程 parsePage(infoList,html) except: continue printGoodsList(infoList) main()