Python 爬蟲利器 Selenium

阿新 • • 發佈：2018-12-12

前面幾節，我們學習了用 requests 構造頁面請求來爬取靜態網頁中的資訊以及通過 requests 構造 Ajax 請求直接獲取返回的 JSON 資訊。

還記得前幾節，我們在構造請求時會給請求加上瀏覽器 headers,目的就是為了讓我們的請求模擬瀏覽器的行為，防止被網站的反爬蟲策略限制。今天要介紹的 Selenium 是一款強大的工具，它可以控制我們的瀏覽器，這樣一來程式的行為就和人類完全一樣了。

通過使用 Selenium 可以解決幾個問題：

頁面內容是由 JavaScript 動態生成，通過 requests 請求頁面無法獲取內容。
爬蟲程式被反爬蟲策略限制
讓程式的行為和人一樣

安裝

pip install selenium
安裝瀏覽器驅動

下載後把驅動檔案加入環境變數。或者直接把驅動檔案和 Python指令碼放到同一資料夾下面
測試安裝完成後，可以編寫以下指令碼來測試是否安裝成功。 python from selenium import webdriver driver = webdriver.Chrome() # 建立一個 Chrome WebDriver 例項 driver.get('https://www.baidu.com/') # 開啟網址 執行後會發現程式自動打開了 Chrome 瀏覽器，並且定向到了百度首頁。
與頁面互動 WebDriver定義了很多方法，我們可以很方便的操作頁面上的元素比如獲取元素，可以通過 driver.find_element_by_id("id")

或者driver.find_element_by_name("name")以及 xpath路徑的方式來獲取元素。可以通過send_keys 向輸入框中寫入文字。 python from selenium import webdriver driver = webdriver.Chrome() driver.get('https://www.baidu.com/') search_input = driver.find_element_by_id("kw") # 獲取到百度搜索框 search_input.send_keys("劉亦菲") # 自動輸入劉亦菲 submit = driver.find_element_by_id("su") # 獲取到百度一下按鈕 submit.click() # 點選搜尋

執行以上指令碼，程式會自動開啟 Chrome 瀏覽器，並自動搜尋劉亦菲
其他操作 Selenium 可以進行各種各樣的操作，使程式完全符合人類的操作習慣。下面看一下還有哪些功能。

具體可以看官方文件，這裡貼一下地址
[https://selenium-python-zh.readthedocs.io/en/latest/index.html](https://selenium-python-zh.readthedocs.io/en/latest/index.html)

Python 爬蟲利器 Selenium

前面幾節，我們學習了用 requests 構造頁面請求來爬取靜態網頁中的資訊以及通過 requests 構造 Ajax 請求直接獲取返回的 JSON 資訊。還記得前幾節，我們在構造請求時會給請求加上瀏覽器 headers,目的就是為了讓我們的請求模擬瀏覽器的行為，防止被網站的反爬蟲策略限制。今天要介紹的 S

Python爬蟲利器—selenium

在學習爬蟲的時候，我接觸了selenium，發現其強大功能，可以模擬真實情況操縱瀏覽器，其實也是相當於一個第三方的包。 selenium十分好用特別在面對一些有針對反爬蟲設計的網站時，能達到用時間換資料的效果安裝在控制檯下用PIP操作可以下載，不過在使用的時候要多下載

Python爬蟲利器Selenium+PhantomJS系列入門

簡介一直以來我們在使用Python的urllib2、httplib等通訊框架來抓取網頁，但是涉及到JavaScript渲染的頁面卻不能抓取，所以採用Web自動化測試工具Selenium，無介面瀏覽器PhantomJS來抓取JavaScript渲染的頁面，帶我

Python爬蟲利器五之Selenium的用法

Selenium 是什麼？一句話，自動化測試工具。它支援各種瀏覽器，包括 Chrome，Safari，Firefox 等主流介面式瀏覽器，如果你在這些瀏覽器裡面安裝一個 Selenium 的外掛，那麼便可以方便地實現Web介面的測試。換句話說叫 Seleni

Python爬蟲利器：BeautifulSoup庫

環境內容 python網絡 tag ret bsp 標準 requests for Beautiful Soup parses anything you give it, and does the tree traversal stuff for you. Beautif

Python爬蟲利器三之Xpath語法與lxml庫的用法

blank color idt tab 一段並且 .text rst 基本用法前面我們介紹了 BeautifulSoup 的用法，這個已經是非常強大的庫了，不過還有一些比較流行的解析庫，例如 lxml，使用的是 Xpath 語法，同樣是效率比較高的解析方法。如果大家

Python爬蟲利器：Beautiful Soup

處理 previous tag 得到 navi log 簡單文本節點 pen Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫。使用它來處理HTML頁面就像JavaScript代碼操作HTML DOM樹一樣方便。官方中文文檔地址 1

[Python爬蟲]使用Selenium操作瀏覽器訂購火車票

cse input 相關動態網頁直接教程 put vba 基礎這個專題主要說的是Python在爬蟲方面的應用，包括爬取和處理部分 [Python爬蟲]使用Python爬取動態網頁-騰訊動漫(Selenium) [Python爬蟲]使用Python爬取靜態網頁-鬥魚直

Python爬蟲初探 - selenium+beautifulsoup4+chromedriver爬取需要登錄的網頁信息

-- pro tag bug gui 結果 .com 工作 ges 目標之前的自動答復機器人需要從一個內部網頁上獲取的消息用於回復一些問題，但是沒有對應的查詢api，於是想到了用腳本模擬瀏覽器訪問網站爬取內容返回給用戶。詳細介紹了第一次探索python爬蟲的坑。準備工作

Python爬蟲之selenium的使用（八）

Python爬蟲之selenium的使用一、簡介二、安裝三、使用一、簡介 Selenium 是自動化測試工具。它支援各種瀏覽器，包括 Chrome，Safari，Firefox 等主流介面式瀏覽器，如果你在這些瀏

python爬蟲丨Selenium切換視窗控制代碼及呼叫Chrome瀏覽器

一. 呼叫Chrome瀏覽器首先，假設通過Firefox()瀏覽器定向爬取CSDN首頁導航欄資訊，審查元素程式碼如下圖所示，在div class="menu"路徑的ul、li、a下，同時可以定位ul class="clearfix"。

學習筆記-Python爬蟲7-Selenium + PhantomJS

index ocs java org pytho doc http sel sta # 動態HTML - JavaScript - jQuery - Ajax - DHTML - Python采集動態數據 - 從JavaScrip

Python爬蟲之Selenium

目錄安裝安裝selenium pip install selenium 安裝webdriver 去 https://blog.csdn.net/huilan_same/article/details/51896672 檢視w

Python爬蟲：selenium開啟新視窗和多視窗切換

上說可以通過傳送按鍵事件觸發，比如ctrl+T，不過我沒成功，使用了js開啟新視窗的方式程式碼示例 # -*- coding: utf-8 -*- # @File : switch_tab.py # @Date : 2018-07-27

Python 爬蟲利器 Beautiful Soup 4 之文件樹的搜尋

前面兩篇介紹的是 Beautiful Soup 4 的基本物件型別和文件樹的遍歷, 本篇介紹 Beautiful Soup 4 的文件搜尋搜尋文件樹主要使用兩個方法 find() 和 find_all() find_all(): find_all 是用於搜尋節

Python爬蟲之selenium庫使用詳解

Python爬蟲之selenium庫使用詳解什麼是Selenium selenium 是一套完整的web應用程式測試系統，包含了測試的錄製（selenium IDE）,編寫及執行（Selenium Remote Control）和測試的並行處理（Selenium Grid）。Seleni

Python爬蟲：Selenium常用操作，下載youtube視訊例項

selenium常用操作： from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait

Python爬蟲：selenium掛shadowsocks代理爬取網頁內容

selenium掛ss代理爬取網頁內容 from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.common.exceptions import

Python爬蟲：Selenium+ BeautifulSoup 爬取JS渲染的動態內容（雪球網新聞）

爬取目標：下圖中紅色方框部分的文章內容。（需要點選每篇文章的連結才能獲得文章內容）注：該文章僅介紹爬蟲爬取新聞這一部分，爬蟲語言為Python。乍一看，爬蟲的實現思路很簡單：（2）通過第一步所獲得的各篇文章的URL，抓取文章內容。但是發現簡單使用urlli

【專欄】- Python爬蟲之Selenium+Phantomjs+CasperJS

作者：楊秀璋學歷：本科-北京理工大學碩士-北京理工大學現任教於貴財財經大學資訊學院 http://www.eastmountyxz.com 簡介：自幼受貴州大山的薰陶，養成了誠實質樸的性格。經過寒窗苦讀，考入BIT，為完成自己的教師夢，放棄IT、航天等工

Python 爬蟲利器 Selenium

相關推薦