好好學Python,入門網路爬蟲之精華版!
Python學習網路爬蟲主要分3個大的版塊:抓取,分析,儲存。
另外,比較常用的爬蟲框架Scrapy,這裡最後也詳細介紹一下。
首先列舉一下本人總結的相關文章,這些覆蓋了入門網路爬蟲需要的基本概念和技巧:
學習Python中有不明白推薦加入交流群
號:960410445
群裡有志同道合的小夥伴,互幫互助,
群裡有不錯的視訊學習教程和PDF!
簡單來說這段過程發生了以下四個步驟:
- 查詢域名對應的IP地址。
- 向IP對應的伺服器傳送請求。
- 伺服器響應請求,發回網頁內容。
- 瀏覽器解析網頁內容。
網路爬蟲要做的,簡單來說,就是實現瀏覽器的功能。通過指定url,直接返回給使用者所需要的資料,而不需要一步步人工去操縱瀏覽器獲取。
抓取
這一步,你要明確要得到的內容是什麼?是HTML原始碼,還是Json格式的字串等。
1. 最基本的抓取
抓取大多數情況屬於get請求,即直接從對方伺服器上獲取資料。
首先,Python中自帶urllib及urllib2這兩個模組,基本上能滿足一般的頁面抓取。另外,requests
Requests: import requests response = requests.get(url) content = requests.get(url).content print "response headers:", response.headers print "content:", content Urllib2: import urllib2 response = urllib2.urlopen(url) content = urllib2.urlopen(url).read() print "response headers:", response.headers print "content:", content Httplib2: import httplib2 http = httplib2.Http() response_headers, content = http.request(url, 'GET') print "response headers:", response_headers print "content:", content
此外,對於帶有查詢欄位的url,get請求一般會將來請求的資料附在url之後,以?分割url和傳輸資料,多個引數用&連線。
data = {'data1':'XXXXX', 'data2':'XXXXX'} Requests:data為dict,json import requests response = requests.get(url=url, params=data) Urllib2:data為string import urllib, urllib2 data = urllib.urlencode(data) full_url = url+'?'+data response = urllib2.urlopen(full_url)
2. 對於登陸情況的處理
2.1 使用表單登陸
這種情況屬於post請求,即先向伺服器傳送表單資料,伺服器再將返回的cookie存入本地。
data = {'data1':'XXXXX', 'data2':'XXXXX'} Requests:data為dict,json import requests response = requests.post(url=url, data=data) Urllib2:data為string import urllib, urllib2 data = urllib.urlencode(data) req = urllib2.Request(url=url, data=data) response = urllib2.urlopen(req)
2.2 使用cookie登陸
使用cookie登陸,伺服器會認為你是一個已登陸的使用者,所以就會返回給你一個已登陸的內容。因此,需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。
import requests requests_session = requests.session() response = requests_session.post(url=url_login, data=data)
若存在驗證碼,此時採用response = requests_session.post(url=url_login, data=data)是不行的,做法應該如下:
response_captcha = requests_session.get(url=url_login, cookies=cookies) response1 = requests.get(url_login) # 未登陸 response2 = requests_session.get(url_login) # 已登陸,因為之前拿到了Response Cookie! response3 = requests_session.get(url_results) # 已登陸,因為之前拿到了Response Cookie!
3. 對於反爬蟲機制的處理
3.1 使用代理
適用情況:限制IP地址情況,也可解決由於“頻繁點選”而需要輸入驗證碼登陸的情況。
這種情況最好的辦法就是維護一個代理IP池,網上有很多免費的代理IP,良莠不齊,可以通過篩選找到能用的。對於“頻繁點選”的情況,我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。
proxies = {'http':'http://XX.XX.XX.XX:XXXX'} Requests: import requests response = requests.get(url=url, proxies=proxies) Urllib2: import urllib2 proxy_support = urllib2.ProxyHandler(proxies) opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler) urllib2.install_opener(opener) # 安裝opener,此後呼叫urlopen()時都會使用安裝過的opener物件 response = urllib2.urlopen(url)
3.2 時間設定
適用情況:限制頻率情況。
Requests,Urllib2都可以使用time庫的sleep()函式:
import time
time.sleep(1)
3.3 偽裝成瀏覽器,或者反“反盜鏈”
有些網站會檢查你是不是真的瀏覽器訪問,還是機器自動訪問的。這種情況,加上User-Agent,表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer資訊還會檢查你的Referer是否合法,一般再加上Referer。
headers = {'User-Agent':'XXXXX'} # 偽裝成瀏覽器訪問,適用於拒絕爬蟲的網站 headers = {'Referer':'XXXXX'} headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'} Requests: response = requests.get(url=url, headers=headers) Urllib2: import urllib, urllib2 req = urllib2.Request(url=url, headers=headers) response = urllib2.urlopen(req)
4. 對於斷線重連
def multi_session(session, *arg): retryTimes = 20 while retryTimes>0: try: return session.post(*arg) except: print '.', retryTimes -= 1
或者
def multi_open(opener, *arg):
retryTimes = 20 while retryTimes>0: try: return opener.open(*arg) except: print '.', retryTimes -= 1
這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。
5. 多程序抓取
- 這裡針對華爾街見聞進行並行抓取的實驗對比:Python多程序抓取 與 Java單執行緒和多執行緒抓取
6. 對於Ajax請求的處理
- 對於“載入更多”情況,使用Ajax來傳輸很多資料。
它的工作原理是:從網頁的url載入網頁的原始碼之後,會在瀏覽器裡執行JavaScript程式。這些程式會載入更多的內容,“填充”到網頁裡。這就是為什麼如果你直接去爬網頁本身的url,你會找不到頁面的實際內容。
這裡,若使用Google Chrome分析”請求“對應的連結(方法:右鍵→審查元素→Network→清空,點選”載入更多“,出現對應的GET連結尋找Type為text/html的,點選,檢視get引數或者複製Request URL),迴圈過程。
- 如果“請求”之前有頁面,依據上一步的網址進行分析推導第1頁。以此類推,抓取抓Ajax地址的資料。
- 對返回的json格式資料(str)進行正則匹配。json格式資料中,需從’\uxxxx’形式的unicode_escape編碼轉換成u’\uxxxx’的unicode編碼。
7. 自動化測試工具Selenium
Selenium是一款自動化測試工具。它能實現操縱瀏覽器,包括字元填充、滑鼠點選、獲取元素、頁面切換等一系列操作。總之,凡是瀏覽器能做的事,Selenium都能夠做到。
這裡列出在給定城市列表後,使用selenium來動態抓取去哪兒網的票價資訊的程式碼。
8. 驗證碼識別
對於網站有驗證碼的情況,我們有三種辦法:
- 使用代理,更新IP。
- 使用cookie登陸。
- 驗證碼識別。
- 使用代理和使用cookie登陸之前已經講過,下面講一下驗證碼識別。
可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別,將識別的字元傳到爬蟲系統進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平臺上進行識別。如果不成功,可以再次更新驗證碼識別,直到成功為止。
爬取有兩個需要注意的問題:
- 如何監控一系列網站的更新情況,也就是說,如何進行增量式爬取?
- 對於海量資料,如何實現分散式爬取?
分析
抓取之後就是對抓取的內容進行分析,你需要什麼內容,就從中提煉出相關的內容來。
常見的分析工具有正則表示式,BeautifulSoup,lxml等等。
儲存
分析出我們需要的內容之後,接下來就是儲存了。
我們可以選擇存入文字檔案,也可以選擇存入MySQL或MongoDB資料庫等。
儲存有兩個需要注意的問題:
- 如何進行網頁去重?
- 內容以什麼形式儲存?
Scrapy
Scrapy是一個基於Twisted的開源的Python爬蟲框架,在工業中應用非常廣泛。
Robots協議
好的網路爬蟲,首先需要遵守Robots協議。Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網路爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。
在網站根目錄下放一個robots.txt文字檔案(如 https://www.taobao.com/robots.txt ),裡面可以指定不同的網路爬蟲能訪問的頁面和禁止訪問的頁面,指定的頁面由正則表示式表示。網路爬蟲在採集這個網站之前,首先獲取到這個robots.txt文字檔案,然後解析到其中的規則,然後根據規則來採集網站的資料。
1. Robots協議規則
- User-agent: 指定對哪些爬蟲生效
- Disallow: 指定不允許訪問的網址
- Allow: 指定允許訪問的網址
- 注意: 一個英文要大寫,冒號是英文狀態下,冒號後面有一個空格,”/”代表整個網站
2. Robots協議舉例
禁止所有機器人訪問
User-agent: *
Disallow: /
允許所有機器人訪問
User-agent: *
Disallow:
禁止特定機器人訪問
User-agent: BadBot
Disallow: /
允許特定機器人訪問
User-agent: GoodBot
Disallow:
禁止訪問特定目錄
User-agent: *
Disallow: /images/
僅允許訪問特定目錄
User-agent: *
Allow: /images/
Disallow: /
禁止訪問特定檔案
User-agent: *
Disallow: /*.html$
僅允許訪問特定檔案
User-agent: *
Allow: /*.html$
Disallow: /