1. 程式人生 > >pyspider安裝配置

pyspider安裝配置

關於

首先,在此附上專案的地址,以及官方文件

PySpider 官方文件

安裝

1. pip

首先確保你已經安裝了pip,若沒有安裝,請參照

pip安裝

2. phantomjs

PhantomJS 是一個基於 WebKit 的伺服器端 JavaScript API。它全面支援web而不需瀏覽器支援,其快速、原生支援各種Web標準:DOM 處理、CSS 選擇器、JSON、Canvas 和 SVG。 PhantomJS 可以用於頁面自動化、網路監測、網頁截圖以及無介面測試等。

安裝

以上附有官方安裝方式,如果你是 Ubuntu 或 Mac OS X使用者,可以直接用命令來安裝

Ubuntu:

1 sudo apt - get install phantomjs

Mac OS X:

1 brew install phantomjs

3. pyspider

直接利用 pip 安裝即可

1 pip install
pyspider

如果你是 Ubuntu 使用者,請提前安裝好以下支援類庫

1 sudo apt - get install python python - dev python - distribute python - pip libcurl4 - openssl - dev libxml2 - dev libxslt1 - dev python - lxml

測試

如果安裝過程沒有提示任何錯誤,那就證明一些OK。

命令列輸入

1 pyspider all

然後瀏覽器訪問 http://localhost:5000

觀察一下效果,如果可以正常出現 PySpider 的頁面,那證明一切OK

在此附圖一張,這是我寫了幾個爬蟲之後的介面。

2016-02-11 20.55.36

好,接下來我會進一步介紹這個框架的使用。

常見錯誤

我曾遇到過的一個錯誤:

PySpider HTTP 599: SSL certificate problem錯誤的解決方法 ,後來在作者那發了issue得到了答案,其他的暫時沒什麼問題。

不過發現有的小夥伴提了各種各樣的問題啊,不過我確實都沒遇到過,我再Win10,Linux Ubuntu,Linux CentOS,Mac OS X都成功執行。不過確實有些奇怪的問題,跑著跑著崩了,一點就崩了我也就比較納悶了。

如果大家有問題,可以看看作者專案裡面有沒有類似的issue,另外也推薦大家直接到作者的GitHub上發issue。

畢竟,這個框架不是我寫的。

在此附上Issue地址:

PySpider Issue

轉載自:靜覓 » Python爬蟲進階二之PySpider框架安裝配置