1. 程式人生 > >python爬取轉轉商品列表

python爬取轉轉商品列表


 

 

爬取內容:http://bj.58.com/pbdn/0/

爬取內容要求:

http://study.163.com/course/courseLearn.htm?courseId=1002810012#/learn/text?lessonId=1003459155&courseId=1002810012

爬取程式碼如下:

from bs4 import BeautifulSoup
import requests
import time

url='http://bj.58.com/pbdn/0/'
info=[]

def get_attr(url):
    wb_data=requests.get(url)
    time.sleep(1)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    classifys = soup.select('#nav > div > span > a ')
    titles = soup.select("body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > h1")
    prices = soup.select( 'body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.price_li > span > i ')
    areas = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.info_massege.left > div.palce_li > span > i')
    browserNums = soup.select('body > div.content > div > div.box_left > div.info_lubotu.clearfix > div.box_left_top > p > span.look_time')
    data={
        'classify':classifys[3].get_text().strip(),
        'title':  titles[0].get_text(),
        'price': prices[0].get_text(),
        'area':areas[0].get_text(),
        'view':browserNums[0].get_text()
    }
    print(data)


init_data=requests.get(url)
soup0=BeautifulSoup(init_data.text,'lxml')
accurates=soup0.select('#jingzhun > tbody > tr > td.tc > p')

links=soup0.select('td.t a.t')
for link in links:
    url3=link.get("href")
    if"zhuanzhuan" in url3:
        info.append(url3)

for i in info:
   print(get_attr(i))

爬取結果如下:

{'classify': '北京平板電腦', 'title': 'ipad Pro 國行  512G  10.5寸', 'price': '5580', 'area': '北京-豐臺', 'view': '15次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'iPad Pro 12.9', 'price': '5678', 'area': '北京-朝陽', 'view': '110次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'ipad pro12.9二代', 'price': '5300', 'area': '北京-豐臺', 'view': '165次瀏覽'}
None
{'classify': '北京平板電腦', 'title': '蘋果ipad pro256G最大記憶體12.9英寸大螢幕', 'price': '5500', 'area': '北京-東城', 'view': '75次瀏覽'}
None
{'classify': '北京平板電腦', 'title': '12.9寸 iPad Pro2 256金色官換全新帶包裝', 'price': '6300', 'area': '北京-豐臺', 'view': '166次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'ipad por', 'price': '4500', 'area': '北京-宣武', 'view': '483次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'iPadmini4 128G', 'price': '2688', 'area': '北京-海淀', 'view': '149次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'ipadpro12.9 2017款4g 512g國行9.9新', 'price': '7000', 'area': '北京-海淀', 'view': '792次瀏覽'}
None
{'classify': '北京平板電腦', 'title': '滾滾滾滾滾', 'price': '8.9萬', 'area': '北京-順義', 'view': '73次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'iPad Pro 9.7寸+鍵盤拆封玩了幾天,一直閒置', 'price': '4950', 'area': '北京-朝陽', 'view': '228次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'IPad pro 10.5   國行  256G', 'price': '4800', 'area': '北京-海淀', 'view': '823次瀏覽'}
None
{'classify': '北京平板電腦', 'title': '17款iPad Pro 12.9美版4G灰色金色', 'price': '5800', 'area': '北京-海淀', 'view': '141次瀏覽'}
None
{'classify': '北京平板電腦', 'title': '北京專業收卡小李竭誠為你服務京東商通中欣王府井', 'price': '9999', 'area': '北京-崇文', 'view': '479次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'iPad mini 九五成新 16G閒置轉了', 'price': '899', 'area': '北京-朝陽', 'view': '7221次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'IPad Pro 9.7英寸深空灰128G+cellular', 'price': '4000', 'area': '北京-朝陽', 'view': '4846次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'ipadpro10.5寸', 'price': '7888', 'area': '北京-海淀', 'view': '437次瀏覽'}
None
{'classify': '北京平板電腦', 'title': '剛買不到一個月', 'price': '5999', 'area': '北京-懷柔', 'view': '913次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'iPad pro 10.5 64G 99成新', 'price': '6300', 'area': '北京-朝陽', 'view': '1344次瀏覽'}
None
{'classify': '北京平板電腦', 'title': '蘋果Apple新款iPad Pro 12.9 256G 插卡', 'price': '5999', 'area': '北京-西城', 'view': '1501次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'ipadpro', 'price': '5000', 'area': '北京-朝陽', 'view': '848次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'iPad pro  12.9 .全新 ,256G', 'price': '6600', 'area': '北京-豐臺', 'view': '239次瀏覽'}
None
{'classify': '北京平板電腦', 'title': '公司年會發的ipad pro 9.7寸的全套產品,誠心的密', 'price': '6000', 'area': '北京-朝陽', 'view': '3082次瀏覽'}
None
{'classify': '北京平板電腦', 'title': '作為一個專業的買手 分享下北京的騙子手段', 'price': '10萬', 'area': '北京-朝陽', 'view': '5932次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'iPad mini', 'price': '960', 'area': '北京-朝陽', 'view': '3944次瀏覽'}
None
{'classify': '北京平板電腦', 'title': 'ipad air 2 金色 64GB', 'price': '3000', 'area': '北京-西城', 'view': '2197次瀏覽'}
None

很明顯爬取出來的結果每個都莫名奇妙的出現了一個none  這是為什麼呢?

我也不知道orz