【爬蟲】如何用python+selenium網頁爬蟲

阿新 • • 發佈：2019-01-18

spl query page selenium ota selector 方法 exc timeout

一、前提

爬蟲網頁（只是演示，切勿頻繁請求）：https://www.kaola.com/

需要的知識：Python，selenium 庫，PyQuery

參考網站：https://selenium-python-zh.readthedocs.io/en/latest/waits.html

二、簡單的分析下網站

技術分享圖片

三、步驟

　　1.目標：

　　　　1.open brower

　　　　2.open url

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
import time
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from pyquery import PyQuery as py
brower = webdriver.Chrome() //定義一個brower ,聲明webdriver,調用Chrome()方法
wait = WebDriverWait(brower,20) //設置一個全局等待時間
brower.get("https://www.kaola.com/")

　　2.搜索【年貨】

def search():
    try:
        brower.get("https://www.kaola.com/")
　　　　　//紅包
        close_windows = wait.until(
            EC.presence_of_element_located((By.XPATH,‘//div[@class="cntbox"]//div[@class="u-close"]‘))
        )
　　　　 //輸入框
        input = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR,‘#topSearchInput‘))
        )
       //搜索
        submit = wait.until(
            EC.presence_of_element_located((By.XPATH,‘//*[@id="topSearchBtn"]‘))
        )
        close_windows.click()
        input.send_keys(‘年貨‘)

        time.sleep(2)

        submit.click()
　　　　　//獲取年貨所有的頁數
        total = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR,‘#resultwrap > div.splitPages > a:nth-child(11)‘))
        )
        return total.text
    except TimeoutException:
        return ‘error‘

　　3.獲取頁面的信息

//使用pyQurey解析頁面
def get_product():
    wait.until(
        EC.presence_of_element_located((By.XPATH,‘//*[@id="result"]//li[@class="goods"]‘))
    )
    html = brower.page_source
    doc = py(html)
    goods = doc(‘#result .goods .goodswrap‘)
    for good in goods.items():
        product = {
           ‘image‘ : good.find(‘a‘).attr(‘href‘),
           ‘title‘:good.find(‘a‘).attr(‘title‘),
           ‘price‘:good.find(‘.price .cur‘).text()
        }
        print(product)
def main():
　　get_product()
　　brower.close

.....後續更新

【爬蟲】如何用python+selenium網頁爬蟲

spl query page selenium ota selector 方法 exc timeout 一、前提爬蟲網頁（只是演示，切勿頻繁請求）：https://www.kaola.com/ 需要的知識：Python，selenium 庫，PyQuery 參考網站：ht

【Python3爬蟲】用Python實現發送天氣預報郵件

int 字符串開發者工具 height window 1.0 需要 targe 沒有此次的目標是爬取指定城市的天氣預報信息，然後再用Python發送郵件到指定的郵箱。一、爬取天氣預報 1、首先是爬取天氣預報的信息，用的網站是中國天氣網，網址是http://www.

【Python3爬蟲】用Python實現傳送天氣預報郵件

此次的目標是爬取指定城市的天氣預報資訊，然後再用Python傳送郵件到指定的郵箱。一、爬取天氣預報 1、首先是爬取天氣預報的資訊，用的網站是中國天氣網，網址是http://www.weather.com.cn/static/html/weather.shtml，任意選擇一個城市（比如武漢

【轉】用Python建立最簡單的web服務器

web服務 localhost 服務器 pos 根目錄 cal body -m -- 利用Python自帶的包可以建立簡單的web服務器。在DOS裏cd到準備做服務器根目錄的路徑下，輸入命令： python -m Web服務器模塊 [端口號，默認8000]

【疑問】用python寫登錄驗證遇到的問題

password () http eas ini contact blog pre python 最近開始斷斷續續學習python，今天加入博客園，作為新人，和各位老師們討教了，以後多多照顧！為了大家能看清楚所以就截圖了，文末尾附源碼，說不定會有那位老師給我指教一番。###

【itchat】用Python玩耍微信

說了 chatroom mage 等於 gis 表情 __main__ rec register 【itchat】　　itchat是個基於網頁版微信的python微信API。功能目前做到基本可以滿足正常的消息收發，信息的獲取等等。不過對於紅包之類網頁版微信不支持的功能，

【原創】用python將時間unix格式轉換總結

接受 bsp 時間戳 pretty 需要字符串解析 time函數 spa datetime 我們可以用python裏面的time模塊mktime方法將轉為unix時間戳，mktime函數只能接受相應時間的元祖序列。在此之前需要先將輸入的時間轉為元組序列：如果輸入的時間為

【轉】用python比對數據庫表數據的腳本

%s import gpa post parse pwd 基本原理 -- get 最近在做一個數據庫異構復制的項目,客戶表示需要一個數據比對的工具,我就自己寫了一個異構數據庫的比對python腳本.這個比對腳本只能比對數量,不能比對具體的記錄.使用的sql語句也是最基礎的s

【人工智慧】用Python實現一個簡單的人臉識別，原來我和這個明星如此相似

近幾年來，興起了一股人工智慧熱潮，讓人們見到了AI的能力和強大，比如影象識別，語音識別，機器翻譯，無人駕駛等等。總體來說，AI的門檻還是比較高，不僅要學會使用框架實現，更重要的是，需要有一定的數學基礎，如線性代數，矩陣，微積分等。幸慶的是，國內外許多大神都已經給我們造好“輪子”，我們可以直接來使用某些模型

【程式碼】用Python玩轉微信，echarts餅圖，WordCloud雲圖，自動回覆訊息，好友地區熱圖

參考用Python玩轉微信（一），做了一些修改 import re import os import time import itchat from echarts import Echart, Legend, Pie import wordcloud from wordcloud im

【112】用python畫散點圖和直線圖的小例子

最近自學python，寫了個畫散點圖和直線圖的小例子。把這個例子放到部落格裡做個備份。 import numpy as np import matplotlib.pyplot as plt imp

【演算法】用Python尋找質數

質數（prime number）又稱素數，有無限個。質數定義為在大於1的自然數中，除了1和它本身以外不再有其他因數，這樣的數稱為質數。---百度百科在一般領域，對正整數n，如果用2到根號n之間的所有整數去除，均無法整除，則n為質數。質數大於等於2 不能被它本身和1以外

【新手】用python抓取html程式碼並儲存到txt檔案

import urllib r=urllib.urlopen(“http://www.w3school.com.cn/html5/index.asp“)//獲取html程式碼 f=f.open(“\Users\Desktop\123.txt”,”w”) f

【Python實戰】用Scrapyd把Scrapy爬蟲一步一步部署到騰訊雲

將我們的爬蟲部署到騰訊雲伺服器上面。廢話不多說，我們就來實戰操作吧。這裡選擇什麼雲服務都是可以的，阿里雲，AWS，騰訊雲，其他雲都是沒有問題的。部署方法基本一樣，這裡為了方便，所以筆者選擇了騰訊雲來做講解。既然我們選擇了騰訊雲，首先去騰訊雲的官網，註冊登入一下。點選複製https:

【python爬蟲】抓取連結網頁內的文字（第一步定位超連結文字）

第一步：匯入模組>>> import re >>> from bs4 import BeautifulSoup >>> import urllib.request ---------------------------

【網路爬蟲】：Python：url基礎：urllib

文章目錄 1 簡單介紹 2 相關區別 3 例項講解（1）urllib （2）ulrlib2 （3）httplib （4）requests 4 專案實戰 1 簡單介紹

【每天堅持學一點之python爬蟲】2、什麼是爬蟲

【本文是《python3網路爬蟲開發實戰》一書的學習筆記，原書作者崔慶才】 1、個人理解爬蟲就是從網路上獲取資訊並儲存展示的一種自動化的程式，而非人工搜尋。例如各大搜索引擎就是網路爬蟲的應用。 2、爬蟲分類

Python十分適合用來開發網頁爬蟲

Python十分適合用來開發網頁爬蟲，理由如下：1、抓取網頁自身的介面比較與其他靜態程式語言，如java，c#，c++，python抓取網頁文件的介面更簡練；比較其他動態指令碼語言，如perl，shell，python的urllib2包供給了較為完整的訪問網頁文件的API。（當然ruby也是很好的挑

【R語言爬蟲】用R爬蟲，爬取杭州安居客九堡租房資訊

在當今網際網路時代，資料要會挖，得先學會爬！爬的過程是痛苦的，因為在計算機程式開發領域，網路爬蟲的開發是一個很專業的方向，技術門檻比較高，它所要求的綜合知識很多，相信很多同學都望而卻步了。別急，說話說到

【Python爬蟲】有道翻譯最新爬蟲教程，帶GUI應用介面，2018年3月18日實測可用

最新的有道翻譯爬蟲程式碼，包含應用程式介面，更新於20180318import urllib.request import urllib.parse import json import time import gzip import random import hashli

【爬蟲】如何用python+selenium網頁爬蟲

相關推薦