1. 程式人生 > >Pyspider爬蟲框架的基本使用

Pyspider爬蟲框架的基本使用

1.pyspider介紹

      一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫,分散式架構,支援多種資料庫後端,強大的WebUI支援指令碼編輯器,任務監視器,專案管理器以及結果檢視器。

  • 用Python編寫指令碼
  • 功能強大的WebUI,包含指令碼編輯器,任務監視器,專案管理器和結果檢視器
  • 任務優先順序,重試,定期,按年齡重新抓取等...
  • 分散式架構,抓取JavaScript頁面,Python 2和3等...

2.pyspider文件

1>中文文件:http://www.pyspider.cn/

2>英文文件:http://docs.pyspider.org/

3.pyspider安裝

開啟cmd命令列工具,執行命令

pip install pyspider

出現下圖則安裝成功


4.pyspider啟動服務,進入WebUI介面

安裝pyspider後,開啟cmd命令工具,執行命令來啟動伺服器

pyspider

出現下圖則啟動服務成功,預設地址埠為127.0.0.1:5000


輸入地址127.0.0.1:5000,開啟WebUI介面


佇列統計是為了方便檢視爬蟲狀態,優化爬蟲爬取速度新增的狀態統計.每個元件之間的數字就是對應不同佇列的排隊數量.通常來是0或是個位數.如果達到了幾十甚至一百說明下游元件出現了瓶頸或錯誤,需要分析處理.

新建專案:pyspider與scrapy最大的區別就在這,pyspider新建專案除錯專案完全在web下進行,而scrapy是在命令列下開發並執行測試.

組名:專案新建後一般來說是不能修改專案名的,如果需要特殊標記可修改組名.直接在組名上點滑鼠左鍵進行修改.注意:組名改為delete後如果狀態為stop狀態,24小時後專案會被系統刪除.

執行狀態:這一欄顯示的是當前專案的執行狀態.每個專案的執行狀態都是單獨設定的.直接在每個專案的執行狀態上點滑鼠左鍵進行修改.執行分為五個狀態:TODO,STOP,CHECKING,DEBUG,RUNNING.各狀態說明:TODO是新建專案後的預設狀態,不會執行專案.STOP狀態是停止狀態,也不會執行.CHECHING是修改專案程式碼後自動變的狀態.DEBUG是除錯模式,遇到錯誤資訊會停止繼續執行,RUNNING是執行狀態,遇到錯誤會自動嘗試,如果還是錯誤會跳過錯誤的任務繼續執行.

速度控制:很多朋友安裝好用說爬的慢,多數情況是速度被限制了.這個功能就是速度設定項.rate是每秒爬取頁面數,burst是併發數.如1/3是三個併發,每秒爬取一個頁面.

簡單統計:這個功能只是簡單的做的執行狀態統計,5m是五分鐘內任務執行情況,1h是一小時內執行任務統計,1d是一天內執行統計,all是所有的任務統計.

執行:run按鈕是專案初次執行需要點的按鈕,這個功能會執行專案的on_start方法來生成入口任務.

任務列表:顯示最新任務列表,方便檢視狀態,檢視錯誤等

結果檢視:檢視專案爬取的結果.


5.建立pyspider專案

點選上圖中的新建專案按鈕


6.建立後的pyspider專案