通過python爬蟲爬取淘寶資訊

阿新 • • 發佈：2020-12-14

爬取內容

爬取淘寶上的褲子資訊，包括褲子名字，圖片，價格以及銷售量

爬取過程

首先分析淘寶網頁url

第一頁：

第二頁：

第三頁：

最後的數字從零開始，每增加一頁，數字增加44，由此可以根據第一頁的url得到後面網頁的url

十頁網頁url的列表：

original_url = "https://s.taobao.com/search?q=%E8%A3%A4%E5%AD%90&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20201213&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s="
url_list=list()
for i in range(1, 11):
    url=original_url+str((i-1)*44)
    url_list.append(url)

分析淘寶網頁原始碼

元素審查詢到具體資訊,可以找到資訊儲存在div class="item J_MouserOnverReq item-ad "或div class="item J_MouserOnverReq "中

但是檢視requests請求下來的網頁程式碼和瀏覽器中元素審查不同，並沒有div,class="item J_MouserOnverReq "的標籤

論壇找到解答 https://www.cnblogs.com/yuantup/p/9761534.html

我的解決方法：直接利用爬取下來的網頁原始碼進行正則表示式的匹配，找到所需要的資訊

可以從原始碼中找到

raw_title: 對應商品名稱
pic_url: 對應照片的url
view_price: 對應商品價格
view_sales: 對應商品的銷量

利用正則表示式找到所有匹配的元素

name=re.findall(r'"raw_title":"(.*?)"', response)
pic=re.findall(r'"pic_url":"(.*?)"', response)
price=re.findall(r'"view_price":"(.*?)"', response)
sales=re.findall(r'"view_sales":"(.*?)"', response)

列印每個列表的長度

print(len(name))
print(len(pic))
print(len(price))
print(len(sales))
#44
#44
#44
#44

長度匹配，所以列表中相同下標對應相同元素

圖片獲取並向檔案中寫資訊

fp=open("./image/info.md", 'w', encoding='utf-8')
slen=len(name)
print(slen)
for i in range(0, slen):
    im_name=str(pic[i]).split('/')[-1]
    im=open("./image/"+im_name, 'wb')
    im_url = "http:"+str(pic[i])
    image=requests.get(im_url, headers=headers).content
    im.write(image)
    im.close()
    fp.write("##### "+str(name[i])+'\n'+"價格: "+str(price[i])+'\n'+str(sales[i])+'\n')
    fp.write("!["+str(name[i])+"]("+im_name+")"+'\n')
    #圖片markdown格式：![這是圖片](/assets/img/philly-magic-garden.jpg)
time.sleep(1)
fp.close()

執行結果

共433個圖片

markdown檔案中

最終程式碼

import requests
import re
import time
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.80 Safari/537.36 Edg/86.0.622.43",
            "cookie": "請自行填充"
           }
original_url = "https://s.taobao.com/search?q=%E8%A3%A4%E5%AD%90&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20201213&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s="

url_list=list()
for i in range(1, 11):
    url=original_url+str((i-1)*44)
    url_list.append(url)
fp=open("./image/info.md", 'w', encoding='utf-8')
for url in url_list:
    response=requests.get(url, headers=headers).text
    name=re.findall(r'"raw_title":"(.*?)"', response)
    pic=re.findall(r'"pic_url":"(.*?)"', response)
    price=re.findall(r'"view_price":"(.*?)"', response)
    sales=re.findall(r'"view_sales":"(.*?)"', response)
    slen=len(name)
    print(slen)
    for i in range(0, slen):
        im_name=str(pic[i]).split('/')[-1]
        im=open("./image/"+im_name, 'wb')
        im_url = "http:"+str(pic[i])
        image=requests.get(im_url, headers=headers).content
        im.write(image)
        im.close()
        fp.write("##### "+str(name[i])+'\n'+"價格: "+str(price[i])+'\n'+str(sales[i])+'\n')
        fp.write("!["+str(name[i])+"]("+im_name+")"+'\n')
        #markdown圖片格式：![這是圖片](/assets/img/philly-magic-garden.jpg)
    time.sleep(1)
fp.close()

注意事項(反爬蟲)：User-Agent和cookie都不能缺少

缺少User-Agent會缺少訪問許可權
缺少cookie會抓取到登陸介面

另一種解決方法-利用selenium模擬，並返回網頁原始碼

selenium不能用cookie，所以需要模擬登陸

輸入手機號的標籤id

輸入密碼的標籤id

登陸按鈕的class名字

登陸淘寶網並將網頁返回傳給BeautifulSoup

程式碼：

ori_url="https://s.taobao.com/search?q=%E8%A3%A4%E5%AD%90&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20201213&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s="
driver=webdriver.Chrome()
driver.maximize_window()
#模擬登入
driver.get(ori_url)
time.sleep(1)
driver.find_element_by_id('fm-login-id').clear()
driver.find_element_by_id('fm-login-id').send_keys('15703613658')
time.sleep(1)
driver.find_element_by_id('fm-login-password').clear()
driver.find_element_by_id('fm-login-password').send_keys('*********')#password
time.sleep(1)
driver.find_element_by_class_name('fm-button').click()
time.sleep(5)
data=driver.page_source.encode('utf-8')
soup=BeautifulSoup(data,features='lxml')

成功找到和圖片有關標籤

alt對應商品名稱，src和data-src都有可能對應圖片url，但data-src一定會對應，所以用data-src獲取圖片

儲存圖片

img_list=soup.find_all('img',class_="J_ItemPic img")
for img in img_list:
	fp.write(str(img))
	name=img['alt']
	url='http:'+img['data-src']
	image=requests.get(url).content
	i=open('./selenium_image/'+name+'.jpg','wb')
	i.write(image)
	i.close()
	print(name)

最終爬取到一頁中商品名稱和圖片

最終程式碼

from selenium import webdriver
from bs4 import BeautifulSoup
import time
import re
import requests
ori_url="https://s.taobao.com/search?q=%E8%A3%A4%E5%AD%90&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20201213&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s="
driver=webdriver.Chrome()
driver.maximize_window()
#模擬登入

driver.get(ori_url)
time.sleep(1)
driver.find_element_by_id('fm-login-id').clear()
driver.find_element_by_id('fm-login-id').send_keys('15703613658')
time.sleep(1)
driver.find_element_by_id('fm-login-password').clear()
driver.find_element_by_id('fm-login-password').send_keys('********')#password
time.sleep(1)
driver.find_element_by_class_name('fm-button').click()
time.sleep(5)
data=driver.page_source.encode('utf-8')
soup=BeautifulSoup(data,features='lxml')

fp=open('./selenium_image/source.txt','w',encoding='utf-8')
img_list=soup.find_all('img',class_="J_ItemPic img")
for img in img_list:
	fp.write(str(img))
	name=img['alt']
	url='http:'+img['data-src']
	image=requests.get(url).content
	i=open('./selenium_image/'+name+'.jpg','wb')
	i.write(image)
	i.close()
	print(name)
fp.close()

注意事項

模擬點選登陸後，需要等待幾秒再返回page_source，否則會返回之前的網頁的原始碼

更新到下一頁，可以通過selenium模擬點選下一頁按鈕

抓取價格和銷售量資訊

因為比較懶而且看起來很麻煩，所以沒有做

集美大學計算1913 李文軒

通過python爬蟲爬取淘寶資訊

爬取內容爬取淘寶上的褲子資訊，包括褲子名字，圖片，價格以及銷售量爬取過程

python爬蟲爬取淘寶商品比價(附淘寶反爬蟲機制解決小辦法)

因為評論有很多人說爬取不到，我強調幾點 kv的格式應該是這樣的： kv = {‘cookie\':‘你複製的一長串cookie\',‘user-agent\':‘Mozilla/5.0\'}

python爬蟲----爬取淘寶資料

引言前幾周在做c#大作業，做的是一個水果系統，需要一些水果的資料，於是就去爬取淘寶資料，可是爬下來總是空資料，不知道是怎麼回事，於是我百度了一下說selenium可以實現，然後我就把selenium學習了下，編寫了一個

記一次python 爬蟲爬取深圳租房資訊的過程及遇到的問題

為了分析深圳市所有長租、短租公寓的資訊，爬取了某租房公寓網站上深圳區域所有在租公寓資訊，以下記錄了爬取過程以及爬取過程中遇到的問題：

Python requests 爬取淘寶商品資料，並連線資料庫，儲存資料

前言開發環境 python 3.8pycharm 2021.2 專業版程式碼實現傳送請求獲取資料解析資料(篩選資料)

10行程式碼，Python實現爬取淘寶/天貓評論

要做資料分析首先得有資料才行。對於我等平民來說，最廉價的獲取資料的方法，應該是用爬蟲在網路上爬取資料了。本文記錄一下筆者爬取天貓某商品的全過程，淘寶上面的店鋪也是類似的做法，不贅述。主要是分析頁面以及

Python通過正則庫爬取淘寶商品資訊程式碼例項

使用正則庫爬取淘寶商品的商品資訊，首先我們需要確定想要爬取的物件我們在淘寶裡搜尋“python”,出來的結果

Python進階之使用selenium爬取淘寶商品資訊功能示例

本文例項講述了Python進階之使用selenium爬取淘寶商品資訊功能。分享給大家供大家參考，具體如下：

Python爬取淘寶商品資訊寫入mysql

直接上程式碼：（商品名稱、單價、圖片連結） import pymysql import requests import re

Python selenium庫爬取淘寶網商品資訊

重大跟新：https://blog.csdn.net/pineapple_C/article/details/108181761post模擬登入淘寶並爬取商品列表

Python爬蟲爬取新聞資訊案例詳解

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

如何基於Python爬蟲爬取美團酒店資訊

一、分析網頁網站的頁面是 JavaScript 渲染而成的，我們所看到的內容都是網頁載入後又執行了JavaScript程式碼之後才呈現出來的，因此這些資料並不存在於原始 HTML 程式碼中，而 requests 僅僅抓取的是原始 HTML 程式

selenium模擬瀏覽器爬取淘寶產品資訊

1 from selenium import webdriver 2 from selenium.webdriver.common.by import By 3 from selenium.webdriver.support.ui import WebDriverWait

一篇文章教會你用Python爬取淘寶評論資料（寫在記事本）

【一、專案簡介】本文主要目標是採集淘寶的評價，找出客戶所需要的功能。統計客戶評價上面誇哪個功能多，比如防水，容量大，好看等等。

Python爬蟲爬取京東某商品評論資訊存入mysql資料庫

1 \"\"\" 2 https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100006852812&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&f

Python爬蟲爬取煎蛋網圖片程式碼例項

這篇文章主要介紹了Python爬蟲爬取煎蛋網圖片程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python爬蟲爬取筆趣網小說網站過程圖解

首先：文章用到的解析庫介紹 BeautifulSoup： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

python爬蟲爬取幽默笑話網站

爬取網站為：http://xiaohua.zol.com.cn/youmo/ 檢視網頁機構，爬取笑話內容時存在如下問題：

Python爬蟲爬取Bilibili彈幕過程解析

先來思考一個問題，B站一個視訊的彈幕最多會有多少？比較多的會有2000條吧，這麼多資料，B站肯定是不會直接把彈幕和這個視訊綁在一起的。

通過python爬蟲爬取淘寶資訊

爬取內容

爬取過程

首先分析淘寶網頁url

最後的數字從零開始，每增加一頁，數字增加44，由此可以根據第一頁的url得到後面網頁的url

分析淘寶網頁原始碼

元素審查詢到具體資訊,可以找到資訊儲存在div class="item J_MouserOnverReq item-ad "或div class="item J_MouserOnverReq "中

但是檢視requests請求下來的網頁程式碼和瀏覽器中元素審查不同，並沒有div,class="item J_MouserOnverReq "的標籤

論壇找到解答 https://www.cnblogs.com/yuantup/p/9761534.html

我的解決方法：直接利用爬取下來的網頁原始碼進行正則表示式的匹配，找到所需要的資訊

可以從原始碼中找到

利用正則表示式找到所有匹配的元素

列印每個列表的長度

圖片獲取並向檔案中寫資訊

執行結果

共433個圖片

markdown檔案中

最終程式碼

注意事項(反爬蟲)：User-Agent和cookie都不能缺少

另一種解決方法-利用selenium模擬，並返回網頁原始碼

selenium不能用cookie，所以需要模擬登陸

輸入手機號的標籤id

輸入密碼的標籤id

登陸按鈕的class名字

登陸淘寶網並將網頁返回傳給BeautifulSoup

程式碼：

成功找到和圖片有關標籤

alt對應商品名稱，src和data-src都有可能對應圖片url，但data-src一定會對應，所以用data-src獲取圖片

儲存圖片

最終爬取到一頁中商品名稱和圖片

最終程式碼

注意事項

模擬點選登陸後，需要等待幾秒再返回page_source，否則會返回之前的網頁的原始碼

更多

更新到下一頁，可以通過selenium模擬點選下一頁按鈕

抓取價格和銷售量資訊

因為比較懶而且看起來很麻煩，所以沒有做

相關推薦