利用requests庫和pyquery庫爬取指定頁數的京東商品資訊

阿新 • • 發佈：2018-12-19

大概思路：首先利用requests庫獲取京東商品搜尋的頁面資訊，然後利用pyquery庫對爬取的資料進行分析，然後利用格式化輸出的方法輸出所爬取的資料。

要爬取的頁面截圖為

對前幾頁的網址進行分析可觀察出相應的規律

第一頁：https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8& wq=%E6%89%8B%E6%9C%BA&pvid=76b728d7f57f43b4bb933938d08bd38c 第二頁：https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8& qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%E6%9C%BA&cid2=653&cid3=655&page=3&s=58&click=0 第三頁：https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8& qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%E6%9C%BA&cid2=653&cid3=655&page=5&s=114&click=0 第四頁：https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8& qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%E6%9C%BA&cid2=653&cid3=655&page=7&s=170&click=0

觀察前四頁的程式碼很容易發現他們之間的不同只是page=""的不同page頁數乘以2減一，所以我們可以設定URL=“https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8& qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%E6%9C%BA&cid2=653&cid3=655&page=”頁數可以設定為一個獨立的變數，這樣我們就可以自定義要爬取的頁數了。

原始碼如下：

import requests
from pyquery import PyQuery as pq       #因為PyQuery書寫的時候較為複雜所以用pq 代替
url='''https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&
qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%E6%9C%BA&cid2=653&cid3=655&page='''
num=eval(input("請輸入需要查詢結果的頁數"))           #自定義頁數
for ii in range(num):
    url=url+str(2*ii+1)
    r=requests.get(url)
    r.encoding="utf-8"           #這一行必不可少，缺少的話就會出現沒有結果的問題
    html=r.text
    print(type(html),len(html))
    text=pq(html)
    divs=text("div").filter(".p-name").items()      #items（）可以讓divs 成為可以遍歷的型別
    prices=text("div").filter(".p-price").items()   #items（）讓pricess 成為可以遍歷的型別
    print(type(divs))
    print(type(prices))
    name=[]
    price=[]
    t="{:^5}\t{:6}\t{:^30}"
    for div in divs:
        ems=div("a").attr("title")
        name.append(ems)
    for pricess in prices:
        price.append(pricess("i").text())
    for i in range(len(name)):
        print(t.format((30*ii)+i+1,price[i],name[i]))

利用requests庫和pyquery庫爬取指定頁數的京東商品資訊

利用requests庫和pyquery庫爬取指定頁數的京東商品資訊

使用selenium和pyquery來爬取淘寶ipad商品資訊

python爬蟲爬取淘寶搜尋頁面商品資訊資料

【原創】Python+Scrapy+Selenium簡單爬取淘寶天貓商品資訊及評論

用requests庫和BeautifulSoup4庫爬取新聞列表

requests庫和BeautifulSoup4庫爬取新聞列表

基於requests庫和lxml庫爬取優信二手車

基於requests庫和lxml庫爬取瓜子二手車

python語言用requests庫和BeautifulSoup庫爬取京東商品資訊

筆記——用Requests庫和BeautifulSoup庫爬取酷狗音樂資料

使用Requests庫和BeautifulSoup庫來爬取網頁上需要的文字與圖片

利用requests和正則爬取貓眼電影top100榜單

使用Python的BeautifulSoup庫實現一個可以爬取1000條百度百科數據的爬蟲

利用appium和Android模擬器爬取微信朋友圈(解決每次重啟登入)

python使用requests庫和re庫寫的京東商品資訊爬蟲

python使用requests庫和re庫寫的京東商品信息爬蟲

利用graphviz軟體和pycallgraph庫自動生成Python程式碼函式呼叫關係圖.md

requests和正則爬取貓眼的資料

mac下給python3安裝requests庫和scrapy庫

ffmpeg的ubuntu的編譯過程（編譯靜態庫和動態庫）

利用requests庫和pyquery庫爬取指定頁數的京東商品資訊

相關推薦