我要爬爬蟲(11)-用selenium爬取淘寶商品資訊

阿新 • • 發佈：2019-02-02

思路就是用selenium操作瀏覽器，訪問淘寶，輸入關鍵詞，查詢，用pyquery解析目標資訊，翻頁，儲存到mongodb.
函式定義三個：

1 開啟瀏覽器，查詢初始化，翻頁

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
def get_page 
(page):
    #例項化一個等待，預設等待2秒
    wait = WebDriverWait(browser,2)
    input = wait.until(EC.presence_of_element_located((By.ID,'q')))
    input.send_keys('足球')
    #顯示等待，並設定等待條件，EC下有多種條件可選擇，這裡是可點選；By方法決定匹配節點的標準，這裡是xpath;
    enter = wait.until(EC.element_to_be_clickable((By.XPATH,'//*[@id="J_SearchForm"]/div/div[1]/button' 
)))
    enter.click()
    for i in range(page):
        #這裡'>'是用來選取子節點用的；比較節點的值和頁數是否相等，即判斷當前頁數是否正確
        current_page = wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager li.item.active > span'),str(i+1)))
        #等待條件，目標資訊是否加載出來
        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item' 
)))
        print(i+1)
        for index,item in enumerate(crawl()):
            save_to_mongo(item)
            print(index,item)
        #處理完一頁就進行翻頁
        next_page = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'.form .input.J_Input')))
        next_page.clear()
        next_page.send_keys(i+2)
        confirm = browser.find_element_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/div[2]/span[3]')
        confirm.click()

2 解析原始碼，選取目標資訊

from pyquery import PyQuery as pq
def crawl():
    #用pyquery處理原始碼
    source = pq(browser.page_source)
    #items()轉化為列舉型別
    items = source.find('#mainsrp-itemlist .items .item').items()
    for item in items:
        body={}
        body['image']=item.find('.pic .img').attr('data-src')
        body['price']=item('.price').text()[2:]
        body['person_buy']=item('.deal-cnt').text()[:-3]
        body['name']=item.find('.J_ClickStat').text()
        body['store']=item('.shopname').text()
        body['location']=item('.location').text()
        yield body

3 儲存到mongodb

from pymongo import MongoClient
mongo = MongoClient()
db = mongo['Taobao']
goods = db['goods']
def save_to_mongo(data):
    try:
        football.insert(data)
    except:
        print('儲存失敗')

還有不開啟瀏覽器的模式，加入引數chrome_options即可。

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
browser = webdriver.Chrome(chrome_options=chrome_options)
browser.get('http://s.taobao.com')

結果展示
這裡寫圖片描述
mongo中

我要爬爬蟲(11)-用selenium爬取淘寶商品資訊

思路就是用selenium操作瀏覽器，訪問淘寶，輸入關鍵詞，查詢，用pyquery解析目標資訊，翻頁，儲存到mongodb. 函式定義三個： 1 開啟瀏覽器，查詢初始化，翻頁 from selenium import webdriver from se

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(ur

利用selenium爬取淘寶商品資訊

# coding: utf-8from selenium import webdriverimport time# 1.建立瀏覽器物件driver = webdriver.Firefox()# 2.開啟淘寶首頁driver.get('http://www.taobao.com

python selenium控制瀏覽器爬取淘寶商品資訊

前言今天為大家介紹一個Python利用selenium開啟瀏覽器的方式來爬取淘寶商品的資訊,下面就來看看,關於selenium

Python爬取淘寶商品資訊

頁面分析開啟淘寶搜尋衛衣男檢視原始碼我們這裡可以找到幾個關鍵詞通過分析我們可以找到價格，郵費，商家地址，付款人數，商家ID，店鋪名稱。分析URL 我們可以看到第一頁url：https://s.taobao.com/search?q=%E5%8D%AB%E

爬取淘寶商品資訊

我們先來解決一下前置知識，本爬蟲會用到以下庫 requests 是一個很實用Python的一個很實用的HTTP客戶端，可以滿足如今爬蟲的需要 json 用於資料的處理 csv 用於資料的儲存分析說明爬取淘寶商品的資訊，資料主要用於分析市場趨勢，從

抓取淘寶商品資訊爬蟲

目標：獲取淘寶搜尋頁面資訊，爬取商品的名稱和價格方法：淘寶的搜尋介面翻頁處理庫：requests對比網址：起始頁第二頁s=44第三頁s=88得到第n頁是s=（n-1）*44淘寶網站的robots協議（一般網站的robots協議約定放在網站的主目錄下

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

利用Selenium爬取淘寶商品信息

支持 down oca ace element 掃描 coo name implicit 一. Selenium和PhantomJS介紹 Selenium是一個用於Web應用程序測試的工具，Selenium直接運行在瀏覽器中，就像真正的用戶在操作一樣。由於這個性質，Sel

Selenium:爬取淘寶商品

from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By

使用Selenium爬取淘寶商品

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditi

網路爬蟲：Python+requests+re+xlwt 爬取淘寶商品並把價格和名字寫入Excel表格

由於學東西比較死，不夠靈活，學校的acm實驗室做演算法題，打比賽，我是真的跟不上那些大佬...就看到人以前實驗室退出的，加到其他實驗室學習專案，做專案，做專案相對學習演算法來說，沒有那麼燒腦，還能做出有趣的東西....我就想學習做專案，因為打比賽我是拿不到能看的成績....

使用selenium爬取淘寶店鋪資訊

使用selenium +PhantomJS()/Chrome爬取淘寶頁面，儲存到mongdb中使用config進行一些設定MONGO_URL = 'localhost'MONGO_DB = 'taobao'MONGO_TABLE = 'product'# 將圖片設定為不下載

pyhton爬蟲筆記之實戰爬取淘寶商品價格和名稱

# -*- coding: utf-8 -*- """ Created on Wed Nov 8 18:55:18 2017 @author: xuanxuan """ # -*- codin

python3.x爬蟲：按頁爬取淘寶商品列表

import requests import re '''https://s.taobao.com/search?initiative_id=tbindexz_20170315&ie=utf8&spm=a21bo.50862.201856-taobao-it

用Python爬取淘寶商品

本文爬取淘寶女裝短裙商品，並將商品資訊存入mysql中分析思路 1.頁面分析在淘寶首頁搜尋“短裙”，進入商品列表頁面：分析頁面原始碼: 通過分析原始碼，可發現商品相關的幾個關鍵資訊：商品圖片地址、商品名、價格、郵費、付款人數、店鋪名、店鋪

Selenium爬取淘寶商品概要入mongodb

enum style div location 如果 ces tex select target 準備： 1.安裝Selenium：終端輸入 pip install selenium 2.安裝下載Chromedriver：解壓後放在…\Google\Chr

Python 爬取淘寶商品信息和相應價格

獲得 com ppa pri 大小 light parent tps 爬取！只用於學習用途！ plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘,html) ：獲得商品價格和view_price字段，並保存在plt中 tlt =

我要爬爬蟲(11)-用selenium爬取淘寶商品資訊

1 開啟瀏覽器，查詢初始化，翻頁

2 解析原始碼，選取目標資訊

3 儲存到mongodb

相關推薦