python爬蟲爬取淘寶商品比價(附淘寶反爬蟲機制解決小辦法)

阿新 • • 發佈：2020-12-04

因為評論有很多人說爬取不到，我強調幾點

kv的格式應該是這樣的：

kv = {‘cookie':‘你複製的一長串cookie',‘user-agent':‘Mozilla/5.0'}

注意都應該用 ‘' ，然後還有個英文的逗號,

kv寫完要在後面的程式碼中新增

r = requests.get(url,headers=kv,timeout=30)

自己得先登入自己的淘寶賬號才有自己登陸的cookie呀，沒登入cookie當然沒用

以下原博

本人是python新手，目前在看中國大學MOOC的嵩天老師的爬蟲課程，其中一個例項是講如何爬取淘寶商品資訊

以下是程式碼：

import requests
import re
 
def getHTMLText(url):
 try:
  r = requests.get(url,timeout=30)
  r.raise_for_status()
  r.encoding = r.apparent_encoding
  return r.text
 except:
  return ""
  
def parsePage(ilt,html):
 try:
  plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
  tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
  for i in range(len(plt)):
   price = eval(plt[i].split(':')[1])
   title = eval(tlt[i].split(':')[1])
   ilt.append([price,title])
 except:
  print("")
 
def printGoodsList(ilt):
 tplt = "{:4}\t{:8}\t{:16}"
 print(tplt.format("序號","價格","商品名稱"))
 count = 0
 for g in ilt:
  count = count + 1
  print(tplt.format(count,g[0],g[1]))
   
def main():
 goods = '書包'
 depth = 3
 start_url = 'https://s.taobao.com/search?q=' + goods
 infoList = []
 for i in range(depth):
  try:
   url = start_url + '&s=' + str(44*i)
   html = getHTMLText(url)
   parsePage(infoList,html)
  except:
   continue
 printGoodsList(infoList)
  
main()

但是我們執行的時候會發現這個程式沒有出錯，但是爬取不到，原因是淘寶實施了反爬蟲機制，r.text 時是登入介面，我們如何繞過登入介面進行爬取呢？

首先我們需要先在瀏覽器中登入我們的個人淘寶，然後搜尋以書包為例的商品，開啟開發者模式（我使用的是chrome）或者按F12

在這裡插入圖片描述

這裡我們可以看到我們當前的cookie和user-agent（一般是Mozilla/5.0）（注意：如果沒有出現這幾個name，點選瀏覽器重新整理就會出現了）

然後在程式碼中增加我們的cookie和user-agent

在這裡插入圖片描述

然後執行

在這裡插入圖片描述

我只是個初學者，學的時候視訊給不了答案，百度了很多，才發現這個小技巧，
有問題百度就完事了

完整程式碼

import requests
import re


def getHTMLText(url):
 kv = {'cookie':'t=5c749e8d453e7e3664735746f5eb5de8; cna=BrXNFDenbXUCAXggNKX9H1bo; thw=cn; tg=0; enc=5LMRHD8305w3oo8X0agYVFUDa7Ox%2F4RBf34oCWap48nRHy%2B%2B1RZCWZJ7ebn%2Fpy7vRNIL8xpS%2Ba0oNFXG5nSu8w%3D%3D; hng=CN%7Czh-CN%7CCNY%7C156; cookie2=10dbf1309bd9a2d5bc9cabe562965aee; _tb_token_=ee67e1a3ee0e5; alitrackid=www.taobao.com; swfstore=308730; v=0; unb=2448224718; sg=%E6%BB%A18d; _l_g_=Ug%3D%3D; skt=d53506c42f2db259; cookie1=BxUHGXuG%2B5Y4Iw7vZCvjLJ0zDvFL2Xy3mjxT%2FRPtFeA%3D; csg=4246b77f; uc3=vt3=F8dByEzfiHo1%2FUIk8VY%3D&id2=UUwU0bQkq1tYDQ%3D%3D&nk2=CN5OZuI3Xv2%2BlbVX&lg2=W5iHLLyFOGW7aA%3D%3D; existShop=MTU1MDU2MTUyMQ%3D%3D; tracknick=king%5Cu4E36%5Cu5C0F%5Cu4E30%5Cu6EE1; lgc=king%5Cu4E36%5Cu5C0F%5Cu4E30%5Cu6EE1; _cc_=VFC%2FuZ9ajQ%3D%3D; dnk=king%5Cu4E36%5Cu5C0F%5Cu4E30%5Cu6EE1; _nk_=king%5Cu4E36%5Cu5C0F%5Cu4E30%5Cu6EE1; cookie17=UUwU0bQkq1tYDQ%3D%3D; lastalitrackid=login.taobao.com; mt=ci=5_1; x=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0%26__ll%3D-1%26_ato%3D0; uc1=cookie14=UoTZ5OXqJxXKdA%3D%3D&lng=zh_CN&cookie16=W5iHLLyFPlMGbLDwA%2BdvAGZqLg%3D%3D&existShop=false&cookie21=UIHiLt3xThH8t7YQouiW&tag=8&cookie15=UIHiLt3xD8xYTw%3D%3D&pas=0; JSESSIONID=F99B5E66516B99D5E7C9F431E402713F; l=bBNU0zKPvJ9oGfuLBOCNZuI8LN_OGIRYjuPRwCfMi_5B46JhzLQOllv3_FJ6Vj5RsK8B4z6vzNp9-etki; isg=BDg4VI5GkPAaMvx83RJGSPCNCeYKCZ0m9uCVOHKp6XNmjdh3GrU6uo2vQcWY5lQD; whl=-1%260%260%261550562673185','user-agent':'Mozilla/5.0'}
 try:
  r = requests.get(url,timeout=30)
  r.raise_for_status()
  r.encoding = r.apparent_encoding
  return r.text
 except:
  return ""


def parsePage(ilt,title])
 except:
  print("")


def printGoodsList(ilt):
 tplt = "{:4}\t{:8}\t{:16}"
 print(tplt.format("序號",g[1]))


def main():
 goods = '書包'
 depth = 3
 start_url = 'https://s.taobao.com/search?q=' + goods
 infoList = []
 for i in range(depth):
  try:
   url = start_url + '&s=' + str(44 * i)
   html = getHTMLText(url)
   parsePage(infoList,html)
  except:
   continue
 printGoodsList(infoList)


main()

到此這篇關於python爬蟲爬取淘寶商品比價(附淘寶反爬蟲機制解決小辦法)的文章就介紹到這了,更多相關python爬取淘寶商品內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

python爬蟲爬取淘寶商品比價(附淘寶反爬蟲機制解決小辦法)

因為評論有很多人說爬取不到，我強調幾點 kv的格式應該是這樣的： kv = {‘cookie\':‘你複製的一長串cookie\',‘user-agent\':‘Mozilla/5.0\'}

Python爬蟲爬取京東某商品評論資訊存入mysql資料庫

1 \"\"\" 2 https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100006852812&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&f