python爬取轉轉商品列表
阿新 • • 發佈:2018-12-10
爬取內容:http://bj.58.com/pbdn/0/
爬取內容要求:
http://study.163.com/course/courseLearn.htm?courseId=1002810012#/learn/text?lessonId=1003459155&courseId=1002810012
爬取程式碼如下:
from bs4 import BeautifulSoup import requests import time url='http://bj.58.com/pbdn/0/' info=[] def get_attr(url): wb_data=requests.get(url) time.sleep(1) soup = BeautifulSoup(wb_data.text, 'lxml') classifys = soup.select('#nav > div > span > a ') titles = soup.select("body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > h1") prices = soup.select( 'body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.price_li > span > i ') areas = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.palce_li > span > i') browserNums = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > p > span.look_time') data={ 'classify':classifys[3].get_text().strip(), 'title': titles[0].get_text(), 'price': prices[0].get_text(), 'area':areas[0].get_text(), 'view':browserNums[0].get_text() } print(data) init_data=requests.get(url) soup0=BeautifulSoup(init_data.text,'lxml') accurates=soup0.select('#jingzhun > tbody > tr > td.tc > p') links=soup0.select('td.t a.t') for link in links: url3=link.get("href") if"zhuanzhuan" in url3: info.append(url3) for i in info: print(get_attr(i))
爬取結果如下:
{'classify': '北京平板電腦', 'title': 'ipad Pro 國行 512G 10.5寸', 'price': '5580', 'area': '北京-豐臺', 'view': '15次瀏覽'} None {'classify': '北京平板電腦', 'title': 'iPad Pro 12.9', 'price': '5678', 'area': '北京-朝陽', 'view': '110次瀏覽'} None {'classify': '北京平板電腦', 'title': 'ipad pro12.9二代', 'price': '5300', 'area': '北京-豐臺', 'view': '165次瀏覽'} None {'classify': '北京平板電腦', 'title': '蘋果ipad pro256G最大記憶體12.9英寸大螢幕', 'price': '5500', 'area': '北京-東城', 'view': '75次瀏覽'} None {'classify': '北京平板電腦', 'title': '12.9寸 iPad Pro2 256金色官換全新帶包裝', 'price': '6300', 'area': '北京-豐臺', 'view': '166次瀏覽'} None {'classify': '北京平板電腦', 'title': 'ipad por', 'price': '4500', 'area': '北京-宣武', 'view': '483次瀏覽'} None {'classify': '北京平板電腦', 'title': 'iPadmini4 128G', 'price': '2688', 'area': '北京-海淀', 'view': '149次瀏覽'} None {'classify': '北京平板電腦', 'title': 'ipadpro12.9 2017款4g 512g國行9.9新', 'price': '7000', 'area': '北京-海淀', 'view': '792次瀏覽'} None {'classify': '北京平板電腦', 'title': '滾滾滾滾滾', 'price': '8.9萬', 'area': '北京-順義', 'view': '73次瀏覽'} None {'classify': '北京平板電腦', 'title': 'iPad Pro 9.7寸+鍵盤拆封玩了幾天,一直閒置', 'price': '4950', 'area': '北京-朝陽', 'view': '228次瀏覽'} None {'classify': '北京平板電腦', 'title': 'IPad pro 10.5 國行 256G', 'price': '4800', 'area': '北京-海淀', 'view': '823次瀏覽'} None {'classify': '北京平板電腦', 'title': '17款iPad Pro 12.9美版4G灰色金色', 'price': '5800', 'area': '北京-海淀', 'view': '141次瀏覽'} None {'classify': '北京平板電腦', 'title': '北京專業收卡小李竭誠為你服務京東商通中欣王府井', 'price': '9999', 'area': '北京-崇文', 'view': '479次瀏覽'} None {'classify': '北京平板電腦', 'title': 'iPad mini 九五成新 16G閒置轉了', 'price': '899', 'area': '北京-朝陽', 'view': '7221次瀏覽'} None {'classify': '北京平板電腦', 'title': 'IPad Pro 9.7英寸深空灰128G+cellular', 'price': '4000', 'area': '北京-朝陽', 'view': '4846次瀏覽'} None {'classify': '北京平板電腦', 'title': 'ipadpro10.5寸', 'price': '7888', 'area': '北京-海淀', 'view': '437次瀏覽'} None {'classify': '北京平板電腦', 'title': '剛買不到一個月', 'price': '5999', 'area': '北京-懷柔', 'view': '913次瀏覽'} None {'classify': '北京平板電腦', 'title': 'iPad pro 10.5 64G 99成新', 'price': '6300', 'area': '北京-朝陽', 'view': '1344次瀏覽'} None {'classify': '北京平板電腦', 'title': '蘋果Apple新款iPad Pro 12.9 256G 插卡', 'price': '5999', 'area': '北京-西城', 'view': '1501次瀏覽'} None {'classify': '北京平板電腦', 'title': 'ipadpro', 'price': '5000', 'area': '北京-朝陽', 'view': '848次瀏覽'} None {'classify': '北京平板電腦', 'title': 'iPad pro 12.9 .全新 ,256G', 'price': '6600', 'area': '北京-豐臺', 'view': '239次瀏覽'} None {'classify': '北京平板電腦', 'title': '公司年會發的ipad pro 9.7寸的全套產品,誠心的密', 'price': '6000', 'area': '北京-朝陽', 'view': '3082次瀏覽'} None {'classify': '北京平板電腦', 'title': '作為一個專業的買手 分享下北京的騙子手段', 'price': '10萬', 'area': '北京-朝陽', 'view': '5932次瀏覽'} None {'classify': '北京平板電腦', 'title': 'iPad mini', 'price': '960', 'area': '北京-朝陽', 'view': '3944次瀏覽'} None {'classify': '北京平板電腦', 'title': 'ipad air 2 金色 64GB', 'price': '3000', 'area': '北京-西城', 'view': '2197次瀏覽'} None
很明顯爬取出來的結果每個都莫名奇妙的出現了一個none 這是為什麼呢?
我也不知道orz