PYTHON 爬蟲筆記十:利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB（實戰項目三）

阿新 • • 發佈：2018-08-14

pre pager 淘寶 NPU group color 存在 pan rgs

利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB

目標站點分析
流程框架
爬蟲實戰

spider詳情頁

import pymongo
import re

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
 
from pyquery import PyQuery as pq
from config import *
import pymongo

client = pymongo.MongoClient(MONGO_URL)
db = client[MONGO_DB]



#browser = webdriver.Chrome()
browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)    #創建PhantomJS瀏覽器
wait = WebDriverWait(browser, 10)

browser.set_window_size( 
1400,900)
def search():       #請求頁面
    print(‘正在搜索。。。‘)
    try:
        browser.get(‘https://world.taobao.com/‘)   #請求淘寶首頁
        input = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, ‘#mq‘))
        )
        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,‘#J_PopSearch > div.sb-search > div > form > input[type="submit"]:nth-child(2) 
‘)))
        input.send_keys(KEYWORD)
        submit.click()
        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,‘#mainsrp-pager > div > div > div > div.total‘)))
        get_products()
        return total.text
    except TimeoutError:
        total = search()
        print(total)

def next_page(page_number): #翻頁操作
    print(‘正在翻頁。。。‘,page_number)
    try:
        input = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, ‘#mainsrp-pager > div > div > div > div.form > input‘))#判斷頁面是否加載出輸入框
        )
        submit = wait.until(EC.element_to_be_clickable(
            (By.CSS_SELECTOR, ‘#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit‘)))  #判斷是否加載出搜索按鈕
        input.clear()
        input.send_keys(page_number)
        submit.click()
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,‘#mainsrp-pager > div > div > div > ul > li.item.active > span‘),str(page_number)))
                    #在做結果判斷的時候，經常想判斷某個元素中是否存在指定的文本，
        get_products()
    except TimeoutError:
        next_page(next_page())

def get_products():
    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘#mainsrp-itemlist .items .item‘)))
    html = browser.page_source      #獲取詳情頁html代碼
    doc = pq(html)      #創建一個Pyquery對象
    items = doc(‘#mainsrp-itemlist .items .item‘).items()  #css選擇器獲取所以items ，調用items方法取得所取的內容
    for item in items:
        producet = {
            ‘title‘: item.find(‘.title‘).text(),
            ‘location‘: item.find(‘.location‘).text(),
            ‘price‘:item.find(‘.price‘).text(),
            ‘deal‘:item.find(‘.deal-cnt‘).text()[:-3],
            ‘shop‘:item.find(‘.shop‘).text(),
            ‘image‘: item.find(‘.pic .img‘).attr(‘src‘),
        }

        print(producet)
        save_to_monge(producet)

def save_to_monge(result):
    try:
        if db[MONGO_TABLE].insert(result):
            print(‘存儲成功!‘,result)
    except Exception:
        print(‘存儲失敗！‘,result)
def main():
    try:
        total = search()
        total = int(re.compile(‘(\d+)‘).search(total).group(1))
        for i in range(2,total+1):
            next_page(i)
    except Exception:
        print(‘出錯啦‘)
    browser.close()

if __name__ == ‘__main__‘:
    main()

config配置頁

MONGO_URL=‘localhost‘
MONGO_DB=‘taobao‘
MONGO_TABLE=‘taobao‘

SERVICE_ARGS = [‘--load-images=false‘,‘--disk-cache=false‘]

KEYWORD =‘美食‘

PYTHON 爬蟲筆記十:利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB（實戰項目三）

pre pager 淘寶 NPU group color 存在 pan rgs 利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB 目標站點分析流程框架爬蟲實戰 spider詳情頁 import pymongo im

利用Selenium+java實現淘寶自動結算購物車商品(附原始碼)

轉載請宣告原文地址！本次的主題是利用selenium+java實現結算購買購物車中的商品。話不多說，本次首先要注意的是谷歌瀏覽器的版本，瀏覽器使用的驅動版本，selenium的jar包版本。谷歌瀏覽器版本 71

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

上一節我們介紹了Selenium工具的使用，本節我們就利用Selenium跟Chrome瀏覽器結合來爬取淘寶相關男士羽絨服商品的資訊，當然你可以用相同的方法來爬取淘寶其他商品的資訊。我們要爬取羽絨服的價格、圖片連線、賣家、賣家地址、收貨人數等資訊，並將其儲存在csv中 fr

爬蟲實例之selenium爬取淘寶美食

獲取 web tex 匹配 ive cati def presence dea 這次的實例是使用selenium爬取淘寶美食關鍵字下的商品信息，然後存儲到MongoDB。首先我們需要聲明一個browser用來操作，我的是chrome。這裏的wait是在後面的判斷元素是

利用selenium爬取淘寶美食內容

pycharm pid dea int mpi bubuko Go con port 1、啟動pycharm 首先咱們新建一個項目名字大家可以自己設定接著新建一個spider.p文件 #author: "xian" #date: 2018/5/4 import re #

Python學習筆記13：selenium webdriver 實現驗證碼登入

#通過ActionChains+autoit進行驗證碼圖片的下載，通過pytesseract識別驗證碼中的字元，由於有一定錯誤率，進行重試直至成功from selenium import webdriver from LanternAnswer.login import Lo

利用 selenium 抓取淘寶信息

tle clas date screens pin sleep source log pre import lxml from bs4 import BeautifulSoup import time from selenium import webdriver impo

利用Selenium爬取淘寶商品信息

支持 down oca ace element 掃描 coo name implicit 一. Selenium和PhantomJS介紹 Selenium是一個用於Web應用程序測試的工具，Selenium直接運行在瀏覽器中，就像真正的用戶在操作一樣。由於這個性質，Sel

利用selenium爬取淘寶商品資訊

# coding: utf-8from selenium import webdriverimport time# 1.建立瀏覽器物件driver = webdriver.Firefox()# 2.開啟淘寶首頁driver.get('http://www.taobao.com

Python爬蟲入門教程 42-100 爬取兒歌多多APP數據-手機APP爬蟲部分

如何分類提取地址一個本科 fiddler 系列案例 1. 兒歌多多APP簡單分析今天是手機APP數據爬取的第一篇案例博客，我找到了一個兒歌多多APP，沒有加固，沒有加殼，沒有加密參數，對新手來說，比較友好，咱就拿它練練手，熟悉一下Fiddler和夜神模擬器是如

python爬蟲25 | 爬取下來的數據怎麽保存？ CSV 了解一下

omd iyu dpm jpeg mkt dsa tmm bgm aso 大家好我是小帥b 是一個練習時長兩年半的練習生喜歡唱！跳！ rap！籃球！敲代碼！裝逼！

用selenium爬取淘寶美食

display cts win clas .get cto 分享 element nal ‘‘‘利用selenium爬取淘寶美食網頁內容‘‘‘ import re from selenium import webdriver from selenium.common.

Spark學習筆記4：數據讀取與保存

讀取數據 chapter byte hadoop tar .lib 文件中 api sequence Spark對很多種文件格式的讀取和保存方式都很簡單。Spark會根據文件擴展名選擇對應的處理方式。 Spark支持的一些常見文件格式如下：　1、文本文件　　　使用文件

Android 音視頻深入十七 FFmpeg 獲取RTMP流保存為flv （附源碼下載）

音視頻 FFmpeg RTMP 項目地址https://github.com/979451341/RtmpSave 這個項目主要代碼我是從雷神那弄過來的，不愧是雷神，我就配個環境搞個界面就可以用代碼了。這一次說的是將RTMP流媒體保存成為一個本地的FLV文件。因為播放視頻本身占有很多技術難點，我

原生js實現淘寶輪播圖，支援左右和跳轉（滑鼠點多快都不會亂）。

用transform是因為這個比left的效能好。這個是演示網址（不要直接存下來哦）：https://shalltears.github.io/test-sowing-map/ 。這個是完整程式碼下載地址，覺得還行的下載支援一下：https://download.csdn.ne

【幹貨】Kafka實現淘寶億萬級數據統計（上）

java 生產者 keep 經理 cap enc 余額寶有感能力在ActiveMQ、RabbitMQ、RocketMQ、Kafka消息中間件之間，我們為什麽要選擇Kafka? 下面詳細介紹一下，2012年9月份我在支付寶做余額寶研發，2013年6月支付寶正式推出余額

[Python爬蟲] 之十九：Selenium +phantomjs 利用 pyquery抓取超級TV網數據

images 判斷 nco dex onf etc lac lin 利用　　一、介紹　　　　本例子用Selenium +phantomjs爬取超級TV（http://www.chaojitv.com/news/index.html）的資訊信息，輸入給定關鍵字抓取

[Python爬蟲] 之十五：Selenium +phantomjs根據微信公眾號抓取微信文章

頭部 drive lac 過程標題操作函數軟件測試 init 　　借助搜索微信搜索引擎進行抓取　　抓取過程　　1、首先在搜狗的微信搜索頁面測試一下，這樣能夠讓我們的思路更加清晰　　　　　　在搜索引擎上使用微信公眾號英文名進行“搜公眾號&r

python爬蟲筆記----4.Selenium庫（自動化庫）

locate pri 官方文檔 input 顯式 ref 打開網頁 elements timeout 4.Selenium庫 (自動化測試工具，支持多種瀏覽器，爬蟲主要解決js渲染的問題) pip install selenium 基本使用 from seleniu

Python爬蟲：十分鐘實現從資料抓取到資料API提供

依舊先從爬蟲的基本概念說起，你去做爬蟲做資料抓取，第一件事想必是去檢視目標網站是否有api。有且可以使用的話，皆大歡喜。假如目標網站自身不提供api，但今天你心情不好就想用api來抓資料，那

PYTHON 爬蟲筆記十:利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB（實戰項目三）

利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB

目標站點分析

流程框架

爬蟲實戰

spider詳情頁

config配置頁

相關推薦