Pyspider爬蟲框架的基本使用
1.pyspider介紹
一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫,分散式架構,支援多種資料庫後端,強大的WebUI支援指令碼編輯器,任務監視器,專案管理器以及結果檢視器。
- 用Python編寫指令碼
- 功能強大的WebUI,包含指令碼編輯器,任務監視器,專案管理器和結果檢視器
- 任務優先順序,重試,定期,按年齡重新抓取等...
- 分散式架構,抓取JavaScript頁面,Python 2和3等...
2.pyspider文件
1>中文文件:http://www.pyspider.cn/
2>英文文件:http://docs.pyspider.org/
3.pyspider安裝
開啟cmd命令列工具,執行命令
pip install pyspider
出現下圖則安裝成功
4.pyspider啟動服務,進入WebUI介面
安裝pyspider後,開啟cmd命令工具,執行命令來啟動伺服器
pyspider
出現下圖則啟動服務成功,預設地址埠為127.0.0.1:5000
輸入地址127.0.0.1:5000,開啟WebUI介面
佇列統計是為了方便檢視爬蟲狀態,優化爬蟲爬取速度新增的狀態統計.每個元件之間的數字就是對應不同佇列的排隊數量.通常來是0或是個位數.如果達到了幾十甚至一百說明下游元件出現了瓶頸或錯誤,需要分析處理.
新建專案:pyspider與scrapy最大的區別就在這,pyspider新建專案除錯專案完全在web下進行,而scrapy是在命令列下開發並執行測試.
組名:專案新建後一般來說是不能修改專案名的,如果需要特殊標記可修改組名.直接在組名上點滑鼠左鍵進行修改.注意:組名改為delete後如果狀態為stop狀態,24小時後專案會被系統刪除.
執行狀態:這一欄顯示的是當前專案的執行狀態.每個專案的執行狀態都是單獨設定的.直接在每個專案的執行狀態上點滑鼠左鍵進行修改.執行分為五個狀態:TODO,STOP,CHECKING,DEBUG,RUNNING.各狀態說明:TODO是新建專案後的預設狀態,不會執行專案.STOP狀態是停止狀態,也不會執行.CHECHING是修改專案程式碼後自動變的狀態.DEBUG是除錯模式,遇到錯誤資訊會停止繼續執行,RUNNING是執行狀態,遇到錯誤會自動嘗試,如果還是錯誤會跳過錯誤的任務繼續執行.
速度控制:很多朋友安裝好用說爬的慢,多數情況是速度被限制了.這個功能就是速度設定項.rate是每秒爬取頁面數,burst是併發數.如1/3是三個併發,每秒爬取一個頁面.
簡單統計:這個功能只是簡單的做的執行狀態統計,5m是五分鐘內任務執行情況,1h是一小時內執行任務統計,1d是一天內執行統計,all是所有的任務統計.
執行:run按鈕是專案初次執行需要點的按鈕,這個功能會執行專案的on_start方法來生成入口任務.
任務列表:顯示最新任務列表,方便檢視狀態,檢視錯誤等
結果檢視:檢視專案爬取的結果.
5.建立pyspider專案
點選上圖中的新建專案按鈕
6.建立後的pyspider專案