pyspider安裝配置
關於
首先,在此附上專案的地址,以及官方文件
安裝
1. pip
首先確保你已經安裝了pip,若沒有安裝,請參照
2. phantomjs
PhantomJS 是一個基於 WebKit 的伺服器端 JavaScript API。它全面支援web而不需瀏覽器支援,其快速、原生支援各種Web標準:DOM 處理、CSS 選擇器、JSON、Canvas 和 SVG。 PhantomJS 可以用於頁面自動化、網路監測、網頁截圖以及無介面測試等。
以上附有官方安裝方式,如果你是 Ubuntu 或 Mac OS X使用者,可以直接用命令來安裝
Ubuntu:
1 | sudo apt - get install phantomjs |
Mac OS X:
1 | brew install phantomjs |
3. pyspider
直接利用 pip 安裝即可
1 |
pip
install |
如果你是 Ubuntu 使用者,請提前安裝好以下支援類庫
1 | sudo apt - get install python python - dev python - distribute python - pip libcurl4 - openssl - dev libxml2 - dev libxslt1 - dev python - lxml |
測試
如果安裝過程沒有提示任何錯誤,那就證明一些OK。
命令列輸入
1 | pyspider all |
然後瀏覽器訪問 http://localhost:5000
觀察一下效果,如果可以正常出現 PySpider 的頁面,那證明一切OK
在此附圖一張,這是我寫了幾個爬蟲之後的介面。
好,接下來我會進一步介紹這個框架的使用。
常見錯誤
我曾遇到過的一個錯誤:
PySpider HTTP 599: SSL certificate problem錯誤的解決方法 ,後來在作者那發了issue得到了答案,其他的暫時沒什麼問題。
不過發現有的小夥伴提了各種各樣的問題啊,不過我確實都沒遇到過,我再Win10,Linux Ubuntu,Linux CentOS,Mac OS X都成功執行。不過確實有些奇怪的問題,跑著跑著崩了,一點就崩了我也就比較納悶了。
如果大家有問題,可以看看作者專案裡面有沒有類似的issue,另外也推薦大家直接到作者的GitHub上發issue。
畢竟,這個框架不是我寫的。
在此附上Issue地址:
轉載自:靜覓 » Python爬蟲進階二之PySpider框架安裝配置