python模塊selenium使用
python模塊selenium使用
我使用的是python2.7
可以直接用pip install 安裝
這裏記錄一下,我使用這個模塊編寫爬蟲的學習
做爬蟲,我之前都是使用requests 模塊寫的,如果簡單的爬蟲,用這個模塊確實可以,但是,如果我們要爬取一些比較復雜的網站,如果直接用這個模塊寫的話,那麽就要匹配很多數據,也比較容易出錯,或者說是沒有那麽方便(寫是可以寫的,只是時間的問題,如果有簡單的,肯定是用簡單的,當然無論復雜或簡單都是學一下)。如果使用requests模塊的話,要考慮更多的東西,但是也可以讓你更了解整個過程
言歸正傳:
還是拿之前寫的發鬥魚彈幕的代碼來講解(只是簡單記錄一下,沒有詳細講代碼)
在安裝好上面的模塊之後,還要下載一個驅動,因為我們是要打開瀏覽器,然後用代碼實現鼠標的點擊和輸入
我這裏使用的是Chrome瀏覽器,所以要下載這個瀏覽器的一個驅動(我稱那個東東叫驅動...)
先看一下Chrome瀏覽器的版本
我用的是最新版的
可以到這裏下載驅動
http://chromedriver.chromium.org/
需要FQ才能訪問
我的是最新版,所以直接下載最新的就可以,建議直接將chrome瀏覽器更新到最新的,然後直接下載最新版就可以了
下載好之後,將那個壓縮包解壓到一個文件夾裏面(我是直接解壓到Chrome的安裝路徑上面了)
然後將這個路徑加入到環境變量裏面
然後再啟動代碼就不會提示沒有驅動了
Selenium的基本使用
先加載一個瀏覽器
然後再請求一個網址
運行代碼就會自動打開一個新的Chrome瀏覽器,然後跳轉到指定的網址
最好在代碼寫一個不斷循環的,
不然就會一跳到這個網址,然後就關閉了
因為代碼運行完就會停止掉代碼
基本使用就是那些了,還有很多功能,等用到了,再繼續記錄了
下面寫一下怎樣不打開界面
因為我們做爬蟲,我們希望代碼執行,然後輸出一系列的數據,如果執行代碼,彈出一個瀏覽器,這樣子有點不好,不但占內存,也影響效率
上面的代碼就是有界面和沒有界面的配置
上面只是簡單地寫一下,記錄一下,如果想結合代碼學習的話,可以到
GitHub地址:https://github.com/niechaojun/Douyu_Barrage
python模塊selenium使用