2018.2.23淘寶商品資訊爬蟲
阿新 • • 發佈:2019-01-30
#以下只是爬取一頁可以通過for迴圈的辦法來爬取兩頁三頁甚至更多,
這是for in 的用法>>>languages = ["C", "C++", "Perl", "Python"] >>> forxinlanguages:... print(x)... CC++PerlPython>>>
import re import requests def gettext(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: return"wrong" def filltext(ilt,html): try: string1=re.findall(r'\"view_price\"\:\"[\d.]*\"',html) string2=re.findall(r'\"raw_title\"\:\".*?\"',html) for i in range(len(string1)): price=eval(string1[i].split(':')[1]) title=eval(string2[i].split(':')[1]) ilt.append([price,title]) except: print("no") def printtext(ilt): try: tplt='{:4}\t{:8}\t{:16}' print(tplt.format("序價","價格","商品名稱")) count=0 for g in ilt: count=count+1 print(tplt.format(count,g[0],g[1])) except: print("nono") def main(): goods='口紅' url='https://s.taobao.com/search?q='+goods list1=[] html=gettext(url) filltext(list1,html) printtext(list1) main()
這個爬蟲沒有用bs4,因為看到搜尋頁面的原始碼發現,商品資訊全部放在一個標籤裡面,所以不需要解析頁面,直接用re搜尋就很簡單。