1. 程式人生 > >python3爬蟲_環境安裝

python3爬蟲_環境安裝

-o 調度 版本號 phantomjs 穩定 pan src win 擁有

一、環境安裝

1、python3安裝

官網:https://www.python.org/downloads/

64 位系統可以下載 Windows x86-64 executable installer,32 位系統可以下載 Windows x86 executable installer,下載完成之後,直接雙擊運行 Python 安裝包,使用圖形界面安裝,設置好 Python 的安裝路徑,完成後將 Python3Python3 Scripts 目錄配置到環境變量即可。

點擊環境變量,找到系統變量下的 Path 變量,隨後點擊編輯按鈕

技術分享圖片

技術分享圖片

驗證是否安裝成功

技術分享圖片

2、請求庫安裝

爬蟲可以簡單分為幾步:抓取頁面、分析頁面、存儲數據

Requests的安裝

命令:pip install requests

Selenium的安裝

命令:pip install selenium

ChromeDriver安裝

查看chrome版本號,到chromeDriver官網下載對應驅動, chromedriver.exe 文件拖到 Python 的 Scripts 目錄下

下載地址https://sites.google.com/a/chromium.org/chromedriver/downloads

PhantomJS的安裝

Chrome Firefox 進行網頁抓取的話,每次抓取的時候,都會彈出一個瀏覽器,比較影響使用。所以在這裏再介紹一個無界面瀏覽器,叫做

PhantomJS

PhantomJS 是一個無界面的,可腳本編程的 WebKit 瀏覽器引擎。它原生支持多種 web 標準:DOM 操作,CSS 選擇器,JSONCanvas 以及 SVG

官方網站:http://phantomjs.org

官方文檔:http://phantomjs.org/quick-start.html

下載地址:http://phantomjs.org/download.html

API接口說明:http://phantomjs.org/api/command-line.html

將下載的文件解壓之後打開會看到一個 bin 文件夾,裏面會包括一個可執行文件 phantomjs.exe,我們需要將它直接放在配置好環境變量的路徑下或者將它所在的路徑配置到環境變量裏,如我們可以將它直接復制到 Python 的 Scripts 文件夾

配置驗證:打開cmd命令行,輸入phantomjs

驗證安裝:

from selenium import webdriver

browser = webdriver.PhantomJS()

browser.get(‘https://www.baidu.com‘)

print(browser.current_url)

運行,內容如下:

技術分享圖片

Aiohttp的安裝

Requests 庫是一個阻塞式 HTTP 請求庫,當我們發出一個請求後,程序會一直等待服務器的響應,直到得到響應後程序才會進行下一步的處理,其實這個過程是比較耗費資源的。如果程序可以在這個等待過程中做一些其他的事情,如進行請求的調度、響應的處理等等,那麽爬取效率一定會大大提高。

Aiohttp 就是這樣一個提供異步 Web 服務的庫,從 Python3.5 版本開始,Python 中加入了 async/await 關鍵字,使得回調的寫法更加直觀和人性化,Aiohttp的異步操作借助於 async/await 關鍵字寫法變得更加簡潔,架構更加清晰。

官方文檔:http://aiohttp.readthedocs.io/en/stable

GitHub:https://github.com/aio-libs/aiohttp

PyPi:https://pypi.python.org/pypi/aiohttp

命令:pip3 install aiohttp

官方推薦的其他兩個庫:

命令:pip3 install cchardet 字符編碼檢測庫

命令:pip3 install aiodns 加速 DNS 解析庫

3、解析庫

抓取下網頁代碼之後,下一步就是從網頁中提取信息,提取信息的方式有多種多樣,可以使用正則來提取,但是寫起來會相對比較繁瑣。在這裏還有許多強大的解析庫,如 LXML、BeautifulSoup、PyQuery 等等,提供了非常強大的解析方法,如 XPath 解析、CSS 選擇器解析等等,利用它們我們可以高效便捷地從從網頁中提取出有效信息

LXML的安裝

LXML 是 Python 的一個解析庫,支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高。

命令:pip install lxml

BeautifulSoup的安裝

BeautifulSoup 是 Python 的一個 HTML 或 XML 的解析庫,我們可以用它來方便地從網頁中提取數據,它擁有強大的 API 和多樣的解析方式

註意:在這裏我們雖然安裝的是 beautifulsoup4 這個包,但是在引入的時候是引入的 bs4,這是因為這個包源代碼本身的庫文件夾名稱就是 bs4,所以安裝完成之後,這個庫文件夾就被移入到我們本機 Python3 的 lib 庫裏,所以識別到的庫文件名稱就叫做 bs4,所以我們引入的時候就引入 bs4 這個包。

因此,包本身的名稱和我們使用時導入的包的名稱並不一定是一致的

命令:pip install beautifulsoup4

PyQuery的安裝

PyQuery 同樣是一個強大的網頁解析工具,它提供了和 jQuery 類似的語法來解析 HTML 文檔,支持 CSS 選擇器,使用非常方便。

命令:pip install pyquery

Tesserocr的安裝

爬蟲過程中難免會遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這時候我們可以直接用 OCR 來識別。

Tesserocr 是 Python 的一個 OCR 識別庫,但其實是對 Tesseract 做的一層 Python API 封裝,所以它的核心是 Tesseract,所以在安裝 Tesserocr 之前我們需要先安裝 Tesseract。

首先需要下載 Tesseract,它為 Tesserocr 提供了支持,下載鏈接為:http://digi.bib.uni-mannheim.de/tesseract/

點擊進入之後可以看到有各種 exe 的下載列表,在這裏可以選擇下載 3.0 版本,如圖 1-24 所示為 3.05 版本。其中文件名中帶有 dev 的為開發版本,不帶 dev 的為穩定版本,可以選擇下載不帶 dev 的最新版本,例如可以選擇下載 tesseract-ocr-setup-3.05.01.exe。下載完成之後雙擊安裝即可。在安裝過程中可以勾選上 Additional language data 選項,安裝 OCR 識別支持的語言包,這樣 OCR 便可以識別多國語言,接下來再安裝 Tesserocr 即可,直接使用 Pip 安裝:

命令:pip install tesserocr pillow

4、數據庫安裝

MySQL的安裝

MySQL 是一個輕量級的關系型數據庫,以表的形式來存儲數據,本節我們來了解下它的安裝方式。

下載地址:https://www.mysql.com/cn/downloads

MongoDB安裝

MongoDB 是由 C++ 語言編寫的非關系型數據庫,是一個基於分布式文件存儲的開源數據庫系統,其內容存儲形式類似 Json 對象,它的字段值可以包含其他文檔,數組及文檔數組,非常靈活

鏈接為:https://www.mongodb.com/download-center#community

Redis的安裝

Redis 是一個基於內存的高效的非關系型數據庫

下載鏈接:https://github.com/MSOpenTech/redis/releases

5、存儲庫安裝

Python 交互的話也同樣需要安裝一些 Python 存儲庫,如 MySQL 需要安裝 PyMySQL,MongoDB 需要安裝 PyMongo 等等

PyMySQL的安裝

命令:pip install pymysql

PyMongo的安裝

命令:pip install pymongo

RedisPy的安裝

命令:pip install redis

RedisDump的安裝

RedisDump 是一個用於 Redis 數據導入導出的工具,是基於 Ruby 實現的,所以要安裝 RedisDump 需要先安裝Ruby

有關 Ruby 的安裝方式可以參考:

http://www.ruby-lang.org/zh_cn/documentation/installation

安裝完成之後,我們就可以執行 gem 命令了,它類似於 Python 中的 pip 命令gem install redis-dump

6、web庫安裝

Flask的安裝

命令:pip install flask

Tornado的安裝

Tornado 是一個支持異步的Web框架,通過使用非阻塞 I/O 流,它可以支撐成千上萬的開放連接,效率非常高

命令:pip install tornado

7、爬蟲框架安裝

PySpider的安裝

PySpider 是國人 binux 編寫的強大的網絡爬蟲框架,它帶有強大的 WebUI、腳本編輯器、任務監控器、項目管理器以及結果處理器,同時它支持多種數據庫後端、多種消息隊列,另外它還支持 JavaScript 渲染頁面的爬取,使用起來非常方便

命令:pip install pyspider

Scrapy的安裝

Scrapy 是一個十分強大的爬蟲框架,依賴的庫比較多,至少需要依賴庫有 Twisted 14.0,lxml 3.4,pyOpenSSL 0.14。而在不同平臺環境又各不相同,所以在安裝之前最好確保把一些基本庫安裝好

官方網站:https://scrapy.org

官方文檔:https://docs.scrapy.org

PyPihttps://pypi.python.org/pypi/Scrapy

GitHubhttps://github.com/scrapy/scrapy

中文文檔:http://scrapy-chs.readthedocs.io

安裝LXML

安裝pyOpenSSL

pip install pyOpenSSL

安裝Twisted

http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下載 Wheel 文件,利用 Pip 安裝即可。 如 Python 3.6 版本,Windows 64 位系統,當前最新版本為 Twisted17.5.0cp36cp36mwin_amd64.whl,直接下載即可

然後 Pip 安裝即可:

pip3 install Twisted?17.5.0?cp36?cp36m?win_amd64.whl

安裝Scrapy

pip3 install Scrapy

python3爬蟲_環境安裝