【Python3 爬蟲學習筆記】pyspider框架的使用 3
啟動爬蟲
返回爬蟲的主頁面,將爬蟲的status設定成DEBUG或RUNNING,點選右側的Run按鈕即可開始爬取。 在最左側我們可以定義專案的分組,以方便管理。rate/burst代表當前的爬取速率,rate代表1秒發出多少個請求,burst相當於流量控制中的令牌桶演算法的令牌數,rate和burst設定的越大,爬取速率越快,當然速率需要考慮本機效能和爬取過快被封的問題。process中的5m、1h、1d指的是最近5分、1小時、1天內的請求情況,all代表所有的請求情況。請求由不同顏色表示,藍色的代表等待被執行的請求,綠色的代表請求成功的請求,黃色的代表請求失敗後等待重試的請求,紅色的代表失敗次數過多而被忽略的請求,這樣可以直觀知道爬取的進度和請求情況。 點選Active Tasks,即可檢視最近請求的詳細情況。
相關推薦
【Python3 爬蟲學習筆記】pyspider框架的使用 3
啟動爬蟲 返回爬蟲的主頁面,將爬蟲的status設定成DEBUG或RUNNING,點選右側的Run按鈕即可開始爬取。 在最左側我們可以定義專案的分組,以方便管理。rate/burst代表當前的爬取速率,rate代表1秒發出多少個請求,burst相當於流量控制中
【Python3 爬蟲學習筆記】pyspider框架的使用 4
pyspider用法詳解 命令列 前面例項通過如下命令啟動pyspider: pyspider all 命令列還有很多可配置引數,完整的命令列結構如下所示: pyspider [OPTIONS] COMMAND [ARGS] 其中,OPTIONS為可選引數,
【Python3 爬蟲學習筆記】Scrapy框架的使用 1
Scrapy功能非常強大,爬取效率高,相關擴充套件元件多,可配置和可擴充套件程度非常高,它幾乎可以應對所有發爬網站,是目前Python中使用最廣泛的爬蟲框架。 Scrapy框架介紹 Scrapy是一個基於Twisted的非同步處理框架,是純Python實現的爬蟲
【Python3 爬蟲學習筆記】資料儲存 3 -- CSV檔案儲存
CSV,全稱為Comma-Separated Values,中文可以叫作逗號分隔符或字元分隔值,其檔案以純文字形式儲存表格資料。該檔案時一個字元序列,可以由任意數目的記錄組成,記錄間以某種換行符分隔。每條記錄由欄位組成,欄位間的分隔符是其他字元或字串,最常見的是逗號或製表符。不過所有記錄都有
【Python3 爬蟲學習筆記】資料儲存 3 -- CSV檔案儲存 1
CSV,全稱為Comma-Separated Values,中文可以叫作逗號分隔符或字元分隔值,其檔案以純文字形式儲存表格資料。該檔案時一個字元序列,可以由任意數目的記錄組成,記錄間以某種換行符分隔。每條記錄由欄位組成,欄位間的分隔符是其他字元或字串,最常見的是
【Python3 爬蟲學習筆記】基本庫的使用 8—— 正則表示式 1
三、正則表示式 1.例項引入 開啟開源中國提供的正則表示式測試工具 http://tool.oschina.net/regex/ ,輸入待匹配的文字,然後選擇常用的正則表示式,就可以得出相應的匹配結果。 對於URL來說,可以用下面的正則表示式匹配: [a-zA-z]+://[^\
【Python3 爬蟲學習筆記】基本庫的使用 7 —— 使用requests
抓取二進位制資料 前面我們抓取知乎的一個頁面,實際上它返回的是一個HTML文件。如何抓取圖片、音訊、視訊? 圖片、音訊、視訊這些檔案本質上都是由二進位制碼組成的,由於有特定的儲存格式和對應的解析方式,我們才可以看到這些形形色色的多媒體,所以要抓取它們,就要拿到它們的二進位制碼。 抓取
【Python3 爬蟲學習筆記】基本庫的使用 12—— 正則表示式 5
6. compile() compile()方法可以將正則字串編譯成正則表示式物件,以便在後面的匹配中複用。示例程式碼如下: import re content1 = '2016-12-15 12:00' content2 = '2016-12-17 12:55' content3
【Python3 爬蟲學習筆記】基本庫的使用 11—— 正則表示式 4
4. findall() search()方法可以返回匹配正則表示式的第一個內容,但是如果想要獲取匹配正則表示式的所有內容,就要藉助findall()方法了。該方法會搜尋整個字串,然後返回匹配正則表示式的所有內容。 上一節中的HTML文字中,如果想要獲得所有a節點的超連結、歌手和歌名,就
【Python3 爬蟲學習筆記】基本庫的使用 10—— 正則表示式 3
3.search() mathch()方法是從字串的開頭開始匹配的,一旦開頭不匹配,那麼整個匹配就失敗了。因為match()方法在使用時需要考慮到開頭的內容,這在匹配時並不方便。它更適合用來檢測某個字串是否符合某個正則表示式的規則。 search()方法在匹配時會掃描整個字串,然後返回第
【Python3 爬蟲學習筆記】基本庫的使用 9—— 正則表示式 2
1.1 匹配目標 如果想從字串中提取出一部分內容,可以用()括號將想提取的子字串括起來。()實際上標記了一個子表示式的開始和結束位置,被標記的每個子表示式會一次對應一個分組,呼叫group()方法傳入分組的索引即可獲取提取的結果。示例如下: import re content =
【Python3 爬蟲學習筆記】解析庫的使用 3 —— Beautiful Soup 1
Beautiful Soup可以藉助網頁的結構和屬性等特性來解析網頁。有了Beautiful Soup,我們不用再去寫一些複雜的正則表示式,只需要簡單的幾條語句,就可以完成網頁中某個元素的提取。 Beautiful Soup是Python的一個HTML或XML的解析庫,可以用它來方便地從
【Python3 爬蟲學習筆記】解析庫的使用 2 —— 使用XPath 2
8. 文字獲取 我們使用XPath中的text()方法獲取節點中文字,接下來嘗試獲取前面li節點中的文字,相關程式碼如下: from lxml import etree html = etree.parse('./test.html', etree.HTMLParser()) re
【Python3 爬蟲學習筆記】解析庫的使用 1 —— 使用XPath 1
XPath,全稱XML Path Language,即XML路徑語言,它是一門在XML文件中查詢資訊的於洋。它最初是用來搜尋XML文件的,但它同樣適用於HTML文件的搜尋。 1. XPath概覽 XPath的選擇功能十分強大,它提供了非常簡潔明瞭的路徑選擇表示式。另外,它還提供了超過
【Python3 爬蟲學習筆記】基本庫的使用 13 —— 抓取貓眼電影排行
四、抓取貓眼電影排行 4.1 抓取分析 需要抓取的目標站點為http://maoyan.com/board/4 ,開啟之後便可以檢視到榜單資訊,如下圖所示: 排名第一的電影是霸王別姬,頁面中顯示的有效資訊有影片名稱、主演、上映時間、上映地區、評分、圖片等資訊。 將網頁滾動到最下方,
【Python3 爬蟲學習筆記】解析庫的使用 7 —— Beautiful Soup 5
CSS選擇器 Beautiful Soup還提供了另外一個選擇器,那就是CSS選擇器。 使用CSS選擇器時,只需要呼叫select()方法,傳入相應的CSS選擇器即可,示例如下: html = ''' <div class="panel"> <div class="
【Python3 爬蟲學習筆記】解析庫的使用 5 —— Beautiful Soup 3
提取資訊 要獲取關聯元素節點的資訊,比如文字、屬性等,如下: html = """ <html> <body> <p class="story"> Once upon a time there were three little sisters
【Python3 爬蟲學習筆記】解析庫的使用 4 —— Beautiful Soup 2
父節點和祖先節點 如果要獲取某個節點元素的父節點,可以呼叫parent屬性: html = """ <html> <head> <title>The Dormouse's story</title> </head> <
【Python3 爬蟲學習筆記】解析庫的使用 10 —— 使用pyquery 3
節點操作 pyquery提供了一系列方法來對節點進行動態修改,比如為某個節點新增一個class,移除某個節點等,這些操作有時候會為提取資訊帶來極大地便利。 addClass和removeClass html = ''' <div class="wrap"> <d
【Python3 爬蟲學習筆記】解析庫的使用 9 —— 使用pyquery 2
遍歷 pyquery的選擇結果可能是多個節點,也可能是單個節點,型別都是PyQuery型別,並沒有返回像Beautiful Soup那樣的列表。 對於單個節點來說,可以直接列印輸出,也可以直接轉成字串: from pyquery import PyQuery as pq doc =