爬蟲實戰三：爬淘寶商品資訊

阿新 • • 發佈：2022-03-06

爬淘寶商品資料

爬淘寶商品資料

免責宣告：本文所記錄的技術手段及實現過程，僅作為爬蟲技術學習使用，不對任何人完全或部分地依據本文的全部或部分內容從事的任何事情和因其任何作為或不作為造成的後果承擔任何責任

一、簡介

於近年來淘寶的反爬措施逐漸完善，爬取難度變大，在爬取時必須要登入之後才能檢視相關的商品資訊，淘寶資料是通過動態載入的方式顯示的，所以本文使用selenium模擬瀏覽器操作爬取商品頁詳情資訊，需要提取安裝和selenuim和瀏覽器驅動chromedriver

1、環境準備

使用的第三方庫

async-generator==1.10
attrs==21.4.0
beautifulsoup4==4.10.0
bs4==0.0.1
certifi==2021.10.8
cffi==1.15.0
charset-normalizer==2.0.12
cryptography==36.0.1
cssselect==1.1.0
fake-useragent==0.1.11
h11==0.13.0
HTMLParser==0.0.2
idna==3.3
logger==1.4
lxml==4.8.0
outcome==1.1.0
pinyin==0.4.0
pycparser==2.21
pyOpenSSL==22.0.0
pyquery==1.4.3
PySocks==1.7.1
requests==2.27.1
selenium==4.1.2
sniffio==1.2.0
sortedcontainers==2.4.0
soupsieve==2.3.1
trio==0.20.0
trio-websocket==0.9.2
urllib3==1.26.8
wsproto==1.1.0
xpinyin==0.7.6

2、頁面分析

通過分析淘寶的頁面的資料，可以知道淘寶頁面的資料是通過 JS 動態加載出來的，再分析頁面原始碼，可以發現每頁的商品資料儲存在 p_page_config這個變數裡面

二、程式碼

1、使用 selenium 模擬登入

該檔名為 Login.py

from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.common.by import By
from fake_useragent import UserAgent
from time import sleep


# 獲取登入狀態
class Login:
    def __init__(self):  # 全部設定為私有屬性，封裝類
        self.driver = None
        self.__init_browser()  # 初始化瀏覽器
        self.__wait = WebDriverWait(self.driver, 180)  # 顯示等待
        self.__main()  # 該方法也可以在外部呼叫

    def __init_browser(self) -> "初始化 瀏覽器":
        __options = ChromeOptions()
        __options.add_experimental_option('excludeSwitcher',
                                          ['enable-automation'])  # 設定開發者模式啟動，該模式下webdriver屬性為正常值
        __option = ChromeOptions()
        __option.add_argument(f'user-agent={UserAgent().random}')  # 設定請求頭
        # __option.add_argument(
        #     r'--user-data-dir=C:\Users\35005\AppData\Local\Google\Chrome\User Data\Default')  # 載入自己的資料
        self.driver = Chrome(chrome_options=__option, options=__options)  # 新增到瀏覽器中
        self.driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
            "source": """
                Object.defineProperty(navigator, 'webdriver', {
                    get: () => undefined
                })
            """
        })  # 避免淘寶滑塊驗證

    def __login(self) -> "登 錄":
        self.driver.maximize_window()  # 最大化視窗
        self.driver.get("https://login.taobao.com/member/login.jhtml")  # 請求登入網頁
        self.driver.find_element(By.XPATH, "//div[@id='login']/div[1]/i").click()  # 二維碼登入
        self.__wait.until(expected_conditions.presence_of_element_located((By.ID, "q")))  # 等待二維碼登入，知道搜尋框出現
        # cookie = self.driver.execute_script("return document.cookie")  # 呼叫 JS 程式碼，獲得cookie
        # self.driver.close()  # 關閉瀏覽器
        # return cookie

    def __main(self):
        self.__login()  # 呼叫介面
        sleep(5)  # 停止 5 秒鐘
        # cookie = self.__login()
        # with open("../Config/cookie.pickle", "wb") as f:
        #     pickle.dump(cookie, f)  # 將資料儲存到二進位制檔案中

if __name__ == '__main__':
    driver = Login()  # 直接呼叫 main 方法

2、解析頁面資料

import re, json
from ConfiCode.Login import Login  # 登入淘寶
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from threading import Thread
from time import sleep, ctime


class SpiderGoods:

    def __init__(self, u) -> "初始化 物件":
        self.__driver = None  # 接收瀏覽器物件
        self.__url = u  # 接收 url
        self.__all_lis = []  # 存放所有字典型別資料
        self.__file = open("./Config/log.txt", "a", encoding="utf-8")

    def __verify(self) -> "滑塊 問題":
        while True:
            try:
                self.__driver.find_element(By.XPATH, "//*[@id='nc_1__scale_text']/span")  # 如果找到滑塊
                self.__file.write(f"出現滑塊，正在處理！{ctime()}\n")
                self.__file.flush()
                sleep(2)
                print("出現滑塊，正在處理！")
                ActionChains(self.__driver).click_and_hold().drag_and_drop_by_offset(260, 0).release().perform()  # 拖動滑塊
            except:
                sleep(3)  # 如果沒有找到滑塊

    def __get_driver(self) -> "得到 瀏覽器物件":
        l = Login()  # 得到瀏覽器物件
        self.__driver = l.driver

    def __get_page_source(self) -> "獲取 資料":
        self.__get_driver()
        self.__file.write(f"登入成功！{ctime()}\n")
        self.__file.flush()
        sleep(2)
        print("登入成功！")
        for i in range(100):  # 淘寶一共有 100 頁
            every_page = []  # 儲存每頁的資料
            url = f"{self.__url}&s={44 * i}"  # 拼接 url
            self.__file.write(f"開始爬取第{i + 1}頁！{ctime()}\n")
            self.__file.flush()
            sleep(2)
            print(f"開始爬取第{i + 1}頁")
            self.__driver.get(url)  # 傳送請求
            sleep(10)  # 停止 10 秒鐘
            try:
                cot = re.search("g_page_config = {(?P<p_page_source>.*?)};",
                                self.__driver.page_source).group("p_page_source")  # 得到儲存資料的頁面
            except:
                continue
            cot = "{" + cot + "}"  # 拼接成 JSON 字串
            cot_dic = json.loads(cot)  # 轉換為字典
            data_lis = cot_dic["mods"]["itemlist"]["data"]["auctions"]  # 得到儲存資料的列表
            for j in data_lis:
                # 標題
                try:
                    title = j["raw_title"]
                except:
                    title = "暫無"

                # 進入詳情頁的 url
                try:
                    detail_url = j["nid"]
                    detail_url = f"https://item.taobao.com/item.htm?&id={detail_url}"
                except:
                    detail_url = "暫無"

                # 圖片 url
                try:
                    pic_url = j["pic_url"]
                    pic_url = f"https:{pic_url}"
                except:
                    pic_url = "暫無"

                # 價格
                try:
                    price = j["view_price"]
                except:
                    price = "-1"

                # 地址
                try:
                    location = j["item_loc"]
                except:
                    location = "暫無"

                # 銷量
                try:
                    sales = j["view_sales"]
                except:
                    sales = "暫無"

                # 店鋪
                try:
                    nick = j["nick"]
                except:
                    nick = "暫無"

                # 評論數量
                try:
                    comment = j["comment_count"]
                except:
                    comment = "-1"

                v_dic = {"標題": title, "詳情頁url": detail_url, "圖片url": pic_url,
                         "最低價格": price, "發貨地址": location, "銷量": sales, "店鋪名稱": nick, "評論數量": comment}  # 儲存資料
                # print(v_dic)
                every_page.append(v_dic)
            p_dic = {f"第{i + 1}頁": every_page}  # 將頁面內容新增的列表中
            self.__file.write(f"獲取完第{i + 1}頁！{ctime()}\n")
            self.__file.flush()
            sleep(2)
            print(f"獲取完第{i + 1}頁")
            self.__all_lis.append(p_dic)  # 把頁面資料新增到列表中
            # print(self.__all_lis)
            sleep(5)  # 停止 3 秒鐘

    def __save_to_json(self) -> "儲存 資料":
        self.__get_page_source()
        name = self.__url.split("=")[-1]
        with open(f"./Source/{name}.json", "w", encoding="utf-8") as f:
            json.dump(self.__all_lis, f, indent=2, ensure_ascii=False)

    def main(self) -> "程式 入口":
        # 開啟執行緒，無限判斷是否有滑塊
        t1 = Thread(target=self.__verify)
        t1.start()
        t2 = Thread(target=self.__save_to_json)
        t2.start()
        t1.join()
        t2.join()
        self.__driver.close()  # 關閉驅動
        self.__file.write(f"爬取完成！{ctime()}\n")
        self.__file.flush()
        sleep(2)
        print("爬取完成！")
        sleep(5)
        self.__file.truncate()
        self.__file.close()


if __name__ == '__main__':
    name = input("請輸入關鍵詞：\n")
    s = SpiderGoods(f"https://s.taobao.com/search?q={name}")
    s.main()

三、專案完整程式碼

在【https://download.csdn.net/download/qq_62789540/83519171】不需要積分哦！！！

本文來自部落格園，作者：A-L-Kun，轉載請註明原文連結：https://www.cnblogs.com/liuzhongkun/p/15969668.html

爬蟲實戰三：爬淘寶商品資訊

目錄爬淘寶商品資料一、簡介1、環境準備2、頁面分析二、程式碼1、使用 selenium 模擬登入2、解析頁面資料三、專案完整程式碼

Python進階之使用selenium爬取淘寶商品資訊功能示例

本文例項講述了Python進階之使用selenium爬取淘寶商品資訊功能。分享給大家供大家參考，具體如下：

Python通過正則庫爬取淘寶商品資訊程式碼例項

使用正則庫爬取淘寶商品的商品資訊，首先我們需要確定想要爬取的物件我們在淘寶裡搜尋“python”,出來的結果

Python爬蟲實戰講解：爬取騰訊視訊

前言做了一些小專案，用的技術和技巧會比較散比較雜，寫一個小品文記錄一下，幫助熟悉。

Python爬取淘寶商品資訊寫入mysql

直接上程式碼：（商品名稱、單價、圖片連結） import pymysql import requests import re

HTML學習案例--仿淘寶商品資訊

步驟：1.佈局分析 2.敲程式碼考察知識點： 1.類選擇器（素材第四天） 2.CSS關於display,padding,margin的應用

python爬蟲爬取淘寶商品比價(附淘寶反爬蟲機制解決小辦法)

因為評論有很多人說爬取不到，我強調幾點 kv的格式應該是這樣的： kv = {‘cookie\':‘你複製的一長串cookie\',‘user-agent\':‘Mozilla/5.0\'}

Python爬蟲實戰講解：某東商品評論資訊採集流程分析

前言電商平臺的小爬蟲，通過網站的搜尋介面拿到商品ID，根據商品ID採集對應的評論。

Python淘寶商品比價定向爬蟲，這個外包值五百嗎?

1.專案基本資訊目標：獲取淘寶搜尋頁面的資訊，提取其中的商品名稱和價格理解：淘寶的搜尋介面、翻頁的處理URL樣式：

Python淘寶商品比價定向爬蟲

1.專案基本資訊目標：獲取淘寶搜尋頁面的資訊，提取其中的商品名稱和價格理解：淘寶的搜尋介面、翻頁的處理

教你如何用Python爬蟲搜尋淘寶商品，生成操作日誌的系統！

/1 前言/ 隨著網購的興起，使得很多傳統店鋪轉型做線上生意，電子商務的產生極大便利了我們的生活。

Python爬蟲實戰教學：網易雲音樂爬取你喜歡得歌曲

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬蟲實戰專案：簡單的爬取某度新聞

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

爬取淘寶商品評論

import requests import re import json import random header = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104

淘寶違禁資訊管理規則變更：新增非法資金獲取的充值卡類商品

5 月 8 日訊息昨日淘寶官方釋出了《虛擬類商品相關規則變更公示通知》，進一步加強淘寶網虛擬類商品市場的管理和引導。

Python requests 爬取淘寶商品資料，並連線資料庫，儲存資料

前言開發環境 python 3.8pycharm 2021.2 專業版程式碼實現傳送請求獲取資料解析資料(篩選資料)

淘寶商品比價定向爬蟲

功能描述目標：獲取淘寶搜尋頁面的資訊，提取其中的商品名稱和價格理解：淘寶的搜尋介面

Python爬蟲實戰，requests+openpyxl模組，爬取手機商品資訊資料（附原始碼）

前言今天給大家介紹的是Python爬取手機商品資訊資料，在這裡給需要的小夥伴們程式碼，並且給出一點小心得。

item_search_img - 按圖搜尋淘寶商品（拍立淘）API介面

item_search_img - 按圖搜尋淘寶商品（拍立淘）測試網址：http://console.open.onebound.cn/console/?i=Ed

爬蟲實戰三：爬淘寶商品資訊

爬淘寶商品資料

一、 簡介

1、 環境準備

2、 頁面分析

二、 程式碼

1、 使用 selenium 模擬登入

2、 解析頁面資料

三、 專案完整程式碼

相關推薦

一、簡介

1、環境準備

2、頁面分析

二、程式碼

1、使用 selenium 模擬登入

2、解析頁面資料

三、專案完整程式碼