python爬蟲使用框架
阿新 • • 發佈:2018-11-19
pip install scrapy
pip install beautifulsoup4
pip install selenium
滑動驗證碼
Selenium是一個用於Web應用程式測試的工具。Selenium測試直接執行在瀏覽器中,就像真正的使用者在操作一樣。支援的瀏覽器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。這個工具的主要功能包括:測試與瀏覽器的相容性——測試你的應用程式看是否能夠很好得工作在不同瀏覽器和作業系統之上。測試系統功能——建立迴歸測試檢驗軟體功能和使用者需求。支援自動錄製動作和自動生成 .Net、Java、Perl等不同語言的測試指令碼。
使用selenium需要
chromedrive.exe
輔助,根據自己的瀏覽器版本下載
pip install pytesseract
pip install pillow
下載安裝
- 下載
tesserocr-2.3.1-cp36-cp36m-win_amd64.whl
檔案 - 複製到anaconda的
pip
所在目錄C:\ProgramData\Anaconda3\Scripts
pip install tesserocr-2.3.1-cp36-cp36m-win_amd64.whl
- 安裝成功後把安裝成功後的
tesseract
的tessdata
資料夾複製到C:\ProgramData\Anaconda3
下
識別圖形文字驗證碼
tesserocr是Python的一個OCR庫,但其實是對tesseract做的一層Python APIde 封裝,所以他的核心是tesseract。因此,在安裝tesserocr之前,我們需要先安裝tesseract。