1. 程式人生 > >python爬蟲使用框架

python爬蟲使用框架

pip install scrapy
pip install beautifulsoup4
pip install selenium

滑動驗證碼
Selenium是一個用於Web應用程式測試的工具。Selenium測試直接執行在瀏覽器中,就像真正的使用者在操作一樣。支援的瀏覽器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。這個工具的主要功能包括:測試與瀏覽器的相容性——測試你的應用程式看是否能夠很好得工作在不同瀏覽器和作業系統之上。測試系統功能——建立迴歸測試檢驗軟體功能和使用者需求。支援自動錄製動作和自動生成 .Net、Java、Perl等不同語言的測試指令碼。

使用selenium需要chromedrive.exe輔助,根據自己的瀏覽器版本下載

pip install pytesseract
pip install pillow

下載安裝

  1. 下載tesserocr-2.3.1-cp36-cp36m-win_amd64.whl檔案
  2. 複製到anaconda的pip所在目錄C:\ProgramData\Anaconda3\Scripts
  3. pip install tesserocr-2.3.1-cp36-cp36m-win_amd64.whl
  4. 安裝成功後把安裝成功後的tesseracttessdata資料夾複製到C:\ProgramData\Anaconda3

識別圖形文字驗證碼
tesserocr是Python的一個OCR庫,但其實是對tesseract做的一層Python APIde 封裝,所以他的核心是tesseract。因此,在安裝tesserocr之前,我們需要先安裝tesseract。