pyspider基本使用和專案刪除

阿新 • • 發佈：2018-11-03

PySpider：一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫，分散式架構，支援多種資料庫後端，強大的WebUI支援指令碼編輯器，任務監視器，專案管理器以及結果檢視器。

一：在cmd中使用pysider all啟動pyspider及其組

二：輸入連結http://localhost:5000,進入pyspider dashboard面板

三：建立專案，點create會出現create new project對話方塊，第一行是專案名字，第二行是開始的url地址（以去哪兒網站為例），填寫完成點選creat。

四：出現pyspider的專案編輯和調式頁面

左側是上側run按鈕是單步調式爬蟲，下冊是5個點選按鈕（下面會使用到）。

右側是pyspider自動生成的一段程式碼

handler是爬蟲的主類，包括爬取定義儲存，基本可以在這個handler可以完成

crawl_config屬性是可以將所有爬取的配置統一定義到這裡。包括headers、設定代理等。

On_start()是爬取入口，方法內包括你要爬取的url，和callback引數，這個引數指定了這個頁面爬取成功後用哪個方法進行解析，這裡使用index_page()，如何在on_start爬取成功，生成的response機會通過callback交給inde_page()

Index_page()接受了上面的response引數，就可以對接pyquery，我們直接就可以doc（）中的方法傳入css選擇器，這樣就解析網頁了，也就是doc內容進行改換和遍歷。

Index_page()裡面的callback同上一樣進行對接解析方法：detail_page()。

五：首先點選run，此時在follows位置會發生變化

點選follows以後頁面會出現連結，點選url三角連結

生成同類型的更多url

我這邊在右側進行了程式碼修改和新增，所以follows是11個，沒有改動右側的程式碼自動生成應該在200多個follows。

點選html可以看到網頁原始碼

點選web就可以看到qunaer的頁面

點選了web停留可以通過上下滾動看網頁

六：點選enable css seletor helper，會在去哪兒的網頁上面形成

點選網頁裡面的標題

生成了li.tit a的物件

點選右側覆蓋doc（）裡面的內容接著點選

就會將doc（）內容進行變化

就會發現follows發生的變化，有11個。

點選其中一個網址，查詢html可以發現其中沒有img，web頁面也只有文字沒有圖片。

pyspider對接了phantomjs，只需要修改一個引數就可以對接了。

加入fetch_type='js'

重新再次點選run，再去觀察web和html就可以發現圖片和img節點了。

最後我們需要提取作者、標題等，所以修改detail_page()方法中的內容

再次回到pyspider dashboard面板可見

專案如何刪除

將專案名字(group)改成delete，將狀態（status）改成stop,24小時之後自動刪除。

pyspider基本使用和專案刪除

pyspider基本使用和專案刪除

git 基本操作 git 刪除本地分支和遠端分支、原生代碼回滾和遠端程式碼庫回滾

基本WEB專案需要匯入哪些Spring包以及每個包的意思和作用

bos 第3天(easyui彈窗邊界問題、取派員的添加、修改和批量刪除)

sql Server如何執行批量插入和批量刪除

RecyclerView借助ItemTouchHelper實現拖動和滑動刪除功能

db2數據庫基本添加刪除表字段總結

用delete和trancate刪除表記錄的區別

腳本實現文件備份和定期刪除備份文件

mybatis 樂觀鎖和邏輯刪除

Linux 批量創建user和批量刪除用戶

Oracle和MySQL刪除語句的一個區別

單鏈表基本操作（刪除連結串列中最大元素）

springboot2.0 快速專案搭建和專案的配置(start.spring.io)

springboot2.0 快速專案搭建和專案的配置(Spring Tool Suite (STS))

18-09-11 軟體rpm yum rm解除安裝和批量刪除

vue的安裝和專案構建

加密演算法總結加密演算法(DES,AES,RSA,MD5,SHA1,Base64)比較和專案應用

Tomcat啟動優化和專案優化

SpringBoot基礎專案搭建及各種整合和專案原始碼

pyspider基本使用和專案刪除

相關推薦