selenium + Chrome 模擬瀏覽器爬淘寶資訊

阿新 • • 發佈：2019-01-09

環境:

ubuntu16.04
python3.5.2
版本 67.0.3396.87（正式版本） （64 位）
chromedriver 2.40

安裝所需工具:

1 selenium三方庫安裝

pip install selenium  # 安裝selenium庫

mv chromedriver /usr/bin/

python下測試chromedriver:

from selenium import webdriver  # 引入驅動物件
driver = webdriver.Chrome()  　# 生成谷歌瀏覽器物件
driver.get('http://www.baidu.com' 
)  #訪問百度

－－－－瀏覽器會自動開啟一個新的頁面並訪問百度，成功說明安裝配置成功．－－－－

分析淘寶頁面並執行selenium

#coding:utf-8
import re
from bs4 import BeautifulSoup
from selenium.common.exceptions import TimeoutException
from selenium import webdriver
#這幾個都是從selenium官網套用的
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import 
 WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 谷歌瀏覽器驅動物件
browser = webdriver.Chrome()
# selenium和PhantomJS分手了，現在可以用無頭瀏覽器FireFox或者Chrome代替
# browser = webdriver.PhantomJS()
wait = WebDriverWait(browser, 10)

# 開啟淘寶頁面並輸入"美食"
def search():
    try:
        browser.get('https://www.taobao.com/' 
)
        # 等待10秒直到找到輸入框  通過css選擇器語法來實現
        input_button = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "#q"))
        )
        # 等待10秒直到找到搜尋按鈕  通過css選擇器語法來實現
        submmit = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "#J_TSearchForm > div.search-button > button"))
            )
        # 用send_keys()方法輸入"美食"
        input_button.send_keys('美食')
        # 用click()方法點選搜尋按鈕
        submmit.click()
        # 關鍵詞搜尋出來在淘寶中的頁數
        total = wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.total"))
        )
        return total.text
    # timeout報錯 遞迴呼叫自己
    except TimeoutException:
        return search()


# 翻頁函式
def next_page(page_number):
    try:
        # 等待10秒直到找到輸入框  通過css選擇器語法來實現
        # 淘寶返回頁下面的跳轉的輸入框: 第 [1] 頁
        input_button = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > input"))
        )
        # 等待10秒直到找到搜尋按鈕  通過css選擇器語法來實現
        #　淘寶返回頁下面的跳轉按鈕：第 [1] 頁　確認
        submmit = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit"))
            )
        # 清楚內容
        input_button.clear()
        # 輸入跳轉頁碼
        input_button.send_keys(page_number)
        # 點選跳轉
        submmit.click()
        # 等待跳轉後 高亮的頁碼數字是不是page_number,一定注意引數((By.CSS_SELECTOR,'css語法'),(text))
        wait.until(
            EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page_number))
            )
    except TimeoutException:
        next_page(page_number)


# 商品詳情解析，這裡只做了列印輸入並未儲存在資料庫
def get_products():
    wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-itemlist > div > div > div:nth-child(1) > div:nth-child(1) > div.ctx-box.J_MouseEneterLeave.J_IconMoreNew"))
            )
    res = browser.page_source
    html = BeautifulSoup(res, 'html.parser')
    # 每個上坪詳情列表結果
    items= html.find_all('div',{'class':'ctx-box J_MouseEneterLeave J_IconMoreNew'})
    for item in items:
        print({
            'price':item.find('div',{'class':'price g_price g_price-highlight'}).find('strong').string,
            'pay_nums':item.find('div',{'class':'deal-cnt'}).string,
            'name':item.find('div',{'class':'row row-2 title'}).find('a').get_text().replace('\n','').replace(' ',''),
            'location':item.find('div',{'class':'location'}).string

            })


# 主函式
def main():
    total = search()
    #　返回的是字串，正則匹配返回頁碼數字
    total = int(re.compile('(\d+)').search(total).group(1))
    # print(type(total))
    for i in range(2,total+1):
        get_products()
        next_page(i)



if __name__ == '__main__':
    main()

總結：

本人大四小白，不喜勿碰．如有錯誤歡迎指正，一起學習，共同進步．

PhantomJS
本來打算用Phantomjs代替介面化瀏覽器結果發現，selenium和PhantomJS分道揚鑣了，不過可以用無頭FireFox或者Chrome瀏覽器代替．這裡沒有做研究．

selenium + Chrome 模擬瀏覽器爬淘寶資訊

環境: ubuntu16.04 python3.5.2 版本 67.0.3396.87（正式版本）（64 位） chromedriver 2.40 安裝所需工具: 1 selenium三方庫安裝 pip install seleniu

selenium chrome登陸手機 pc淘寶

mobile rime 觸發 drive rom googl turn cookies driver 接口登錄淘寶，困難度極高，沒有人已經實現過。淘寶登錄selenium 手機版 pc版。由於每天需要使用ip代理大批量的異地登錄淘寶帳號，這種情況必然會出現淘寶滑動

通過selenium +headless瀏覽器爬取淘寶資訊

開始使用的是phantomJS瀏覽器但是出現警告,所以換成火狐的無頭瀏覽器,也可以使用谷歌的 from selenium import webdriver from selenium.webdriver.firefox.options import Options f

使用scrapy和selenium結合爬取淘寶資訊

首先，發現淘寶資訊是需要進行下拉載入資訊，否則商品資訊為空因此，在middleware.py中設定： class ScrapyseleniumspiderDownloaderMiddleware(object): # def __init__(self):

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

上一節我們介紹了Selenium工具的使用，本節我們就利用Selenium跟Chrome瀏覽器結合來爬取淘寶相關男士羽絨服商品的資訊，當然你可以用相同的方法來爬取淘寶其他商品的資訊。我們要爬取羽絨服的價格、圖片連線、賣家、賣家地址、收貨人數等資訊，並將其儲存在csv中 fr

python簡單爬蟲多執行緒爬取京東淘寶資訊教程

1,需要準備的工作，電腦已經安裝好python，如果沒裝，可以執行去https://www.python.org/官網下載，初學者可以安裝輕量級的wingide python開發工具，python安裝成功後配置好環境變數，在dos環境使用pip install 模組將需要用

Python爬蟲(三)爬淘寶MM圖片

name os.path app dir util mozilla user mac baseurl 直接上代碼: # python2 # -*- coding: utf-8 -*- import urllib2 import re import string impo

python模擬瀏覽器爬取數據

wow64 request resp size stat apple 現在 form Language 爬蟲新手大坑：爬取數據的時候一定要設置header偽裝成瀏覽器！！！！在爬取某財經網站數據時由於沒有設置Header信息，直接被封掉了ip 後來設置了Accep

9、使用selenium + phantomjs 模擬瀏覽器登錄網站

end post www. spa keys user auth xxx weight ‘‘‘ Selenium 模擬瀏覽器爬取網頁信息一種是真實的瀏覽器，也即是在程序調用瀏覽器時，會打開相應的瀏覽器來顯示，如：chrome,ie,safari,firefox 一

Selenium+phanmJs 操作瀏覽器爬取資料

什麼是selenium？是Python的一個第三方庫，對外提供的介面可以操作瀏覽器，然後讓瀏覽器完成自動化的操作。　　環境搭建安裝selenum：pip install selenium 獲取某一款瀏覽器的驅動程式（以谷歌瀏覽器為例）谷歌瀏覽器驅動下載地址：http://chromedriv

使用python selenium webdriver模擬瀏覽器

from selenium import webdriver import time import string import datetime def usage(): print("***********************************************

關於Python爬蟲爬淘寶mm詳細教程+存入資料庫

具體思路：進入頁面我們會看見很多圖片，其實每張圖片對應一個URL，然後點選一張圖片我們就會進入到對應主頁，主頁裡面有大量的圖片，我們首先就是獲取到當前頁面的所有url，然後進入每個url獲得對應的每個人的所有圖片。首先我們進入該網頁，直接F12進入除錯模式，（如果進入不

16-使用Selenium模擬瀏覽器抓取淘寶商品美食資訊

淘寶由於含有很多請求引數和加密引數，如果直接分析ajax會非常繁瑣，selenium自動化測試工具可以驅動瀏覽器自動完成一些操作，如模擬點選、輸入、下拉等，這樣我們只需要關心操作而不需要關心後臺發生了怎樣的請求。PhantomJS是一個無介面的瀏覽器。爬取淘寶搜尋關鍵詞下的寶貝內容，爬取到MONGODB，