Python網路爬蟲階段總結
Python學習網路爬蟲主要分3個大的版塊:抓取,分析,儲存
另外,比較常用的爬蟲框架Scrapy,這裡最後也詳細介紹一下。
當我們在瀏覽器中輸入一個url後回車,後臺會發生什麼?
簡單來說這段過程發生了以下四個步驟:
· 查詢域名對應的IP地址。
· 向IP對應的伺服器傳送請求。
· 伺服器響應請求,發回網頁內容。
· 瀏覽器解析網頁內容。
網路爬蟲要做的,簡單來說,就是實現瀏覽器的功能。通過指定url,直接返回給使用者所需要的資料,而不需要一步步人工去操縱瀏覽器獲取。
抓取
這一步,你要明確要得到的內容是什麼?是HTML原始碼,還是Json格式的字串等。
1. 最基本的抓取
抓取大多數情況屬於get請求,即直接從對方伺服器上獲取資料。
首先,Python中自帶urllib及urllib2這兩個模組,基本上能滿足一般的頁面抓取。另外,requests也是非常有用的包,與此類似的,還有httplib2等等。
Requests:
import requests
response = requests.get(url)
content = requests.get(url).content
print "response headers:", response.headers
print "content:", content
Urllib2:(標籤整齊,清晰,看著比較舒服,以後可以用它,便於閱讀HTML)
import urllib2
response = urllib2.urlopen(url)
content = urllib2.urlopen(url).read()
print "response headers:", response.headers
print "content:", content
Httplib2:
import httplib2
http = httplib2.Http()
response_headers, content = http.request(url, 'GET')
print "response headers:", response_headers
print "content:", content
此外,對於帶有查詢欄位的url,get請求一般會將來請求的資料附在url之後,以?分割url和傳輸資料,多個引數用&連線。
data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests:data為dict,json
import requests
response = requests.get(url=url, params=data)
Urllib2:data為string
import urllib, urllib2
data = urllib.urlencode(data)
full_url = url+'?'+data
response = urllib2.urlopen(full_url)
2. 對於登陸情況的處理
2.1 使用表單登陸
這種情況屬於post請求,即先向伺服器傳送表單資料,伺服器再將返回的cookie存入本地。
data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests:data為dict,json
import requests
response = requests.post(url=url, data=data)
Urllib2:data為string
import urllib, urllib2
data = urllib.urlencode(data)
req = urllib2.Request(url=url, data=data)
response = urllib2.urlopen(req)
2.2 使用cookie登陸
使用cookie登陸,伺服器會認為你是一個已登陸的使用者,所以就會返回給你一個已登陸的內容。因此,需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。
import requests
requests_session = requests.session()
response = requests_session.post(url=url_login, data=data)
若存在驗證碼,此時採用response = requests_session.post(url=url_login, data=data)是不行的,做法應該如下:
response_captcha = requests_session.get(url=url_login, cookies=cookies)
response1 = requests.get(url_login) # 未登陸
response2 = requests_session.get(url_login) # 已登陸,因為之前拿到了Response Cookie!
response3 = requests_session.get(url_results) # 已登陸,因為之前拿到了Response Cookie!
3. 對於反爬蟲機制的處理
3.1 使用代理
適用情況:限制IP地址情況,也可解決由於“頻繁點選”而需要輸入驗證碼登陸的情況。
這種情況最好的辦法就是維護一個代理IP池,網上有很多免費的代理IP,良莠不齊,可以通過篩選找到能用的。對於“頻繁點選”的情況,我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。
關鍵程式碼,如下幾行:
proxies = {'http':'http://XX.XX.XX.XX:XXXX'}
Requests:
import requests
response = requests.get(url=url, proxies=proxies)
Urllib2:
import urllib2
proxy_support = urllib2.ProxyHandler(proxies)
opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
urllib2.install_opener(opener) # 安裝opener,此後呼叫urlopen()時都會使用安裝過的opener物件
response = urllib2.urlopen(url)
這在某些情況下比較有用,比如IP被封了,或者比如IP訪問的次數受到限制等等。此時,可以在middlewares.py中通過類對代理IP進行封裝,詳細程式碼如下:
class ProxyMiddleware(object):
def process_request(self, request, spider):
proxy = random.choice(PROXIES)
if proxy['user_pass'] is not None:
request.meta['proxy'] = "http://%s" % proxy['ip_port']
encoded_user_pass = base64.encodestring(proxy['user_pass'])
request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass
print "**************ProxyMiddleware have pass************" + proxy['ip_port']
else:
print "**************ProxyMiddleware no pass************" + proxy['ip_port']
request.meta['proxy'] = "http://%s" % proxy['ip_port']
PROXIES = [
{'ip_port': '218.4.101.130:83', 'user_pass': ''},
{'ip_port': '113.121.47.97:808', 'user_pass': ''},
{'ip_port': '112.235.20.223:80', 'user_pass': ''},
{'ip_port': '27.151.30.68:808', 'user_pass': ''},
{'ip_port': '175.155.25.50:808', 'user_pass': ''},
{'ip_port': '222.85.50.207:808', 'user_pass': ''},
{'ip_port': '116.255.153.137:8082', 'user_pass': ''},
{'ip_port': '119.5.0.26:808', 'user_pass': ''},
{'ip_port': '183.32.88.223:808', 'user_pass': ''},
{'ip_port': '180.76.154.5:8888', 'user_pass': ''},
{'ip_port': '221.229.44.174:808', 'user_pass': ''},
{'ip_port': '27.151.30.68:808', 'user_pass': ''},
{'ip_port': '60.178.86.7:808', 'user_pass': ''},
{'ip_port': '58.243.104.149:8998', 'user_pass': ''},
{'ip_port': '120.27.49.85:8090', 'user_pass': ''},
]
注意,由於代理IP一般都有時效性,需要找到能用的代理IP將上面ip_port關鍵字對應的值替換下來。
3.2 時間設定
適用情況:限制頻率情況。
Requests,Urllib2都可以使用time庫的sleep()函式:
import time
time.sleep(1)
3.3 偽裝成瀏覽器,或者反“反盜鏈”
有些網站會檢查你是在使用真的瀏覽器訪問,還是機器自動訪問的。這種情況,加上User-Agent,表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer資訊,還會檢查你的Referer是否合法,一般再加上Referer。
headers = {'User-Agent':'XXXXX'} # 偽裝成瀏覽器訪問,適用於拒絕爬蟲的網站
headers = {'Referer':'XXXXX'}
headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}
Requests:
response = requests.get(url=url, headers=headers)
Urllib2:
import urllib, urllib2
req = urllib2.Request(url=url, headers=headers)
response = urllib2.urlopen(req)
詳細的,可以在middlewares.py中通過類對代理(瀏覽器)進行封裝
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware
class RotateUserAgentMiddleware(UserAgentMiddleware):
def __init__(self, user_agent=''):
self.user_agent = user_agent
def process_request(self, request, spider):
ua = random.choice(self.user_agent_list)
if ua:
#print ua, '-----------------yyyyyyyyyyyyyyyyyyyyyyyyy'
request.headers.setdefault('User-Agent', ua)
# the default user_agent_list composes chrome,IE,firefox,Mozilla,opera,netscape
# for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php
user_agent_list = [ \
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1" \
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", \
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", \
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", \
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", \
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", \
"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", \
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", \
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", \
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]
4. 對於斷線重連
不多說。
def multi_session(session, *arg):
retryTimes = 20
while retryTimes>0:
try:
return session.post(*arg)
except:
print '.',
retryTimes -= 1
或者
def multi_open(opener, *arg):
retryTimes = 20
while retryTimes>0:
try:
return opener.open(*arg)
except:
print '.',
retryTimes -= 1
這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。
或者設定失敗後自動重試
def get(self,req,retries=3):
try:
response = self.opener.open(req)
data = response.read()
except Exception , what:
print what,req
if retries>0:
return self.get(req,retries-1)
else:
print 'GET Failed',req
return ''
return data
5. 多程序抓取
單執行緒太慢的話,就需要多執行緒了,這裡給個簡單的執行緒池模板 這個程式只是簡單地列印了1-10,但是可以看出是併發地。
from threading import Thread
from Queue import Queue
from time import sleep
#q是任務佇列
#NUM是併發執行緒總數
#JOBS是有多少任務
q = Queue()
NUM = 2
JOBS = 10
#具體的處理函式,負責處理單個任務
def do_somthing_using(arguments):
print arguments
#這個是工作程序,負責不斷從佇列取資料並處理
def working():
while True:
arguments = q.get()
do_somthing_using(arguments)
sleep(1)
q.task_done()
#fork NUM個執行緒等待佇列
for i in range(NUM):
t = Thread(target=working)
t.setDaemon(True)
t.start()
#把JOBS排入佇列
for i in range(JOBS):
q.put(i)
#等待所有JOBS完成
q.join()
6. 對於Ajax請求的處理
對於“載入更多”情況,使用Ajax來傳輸很多資料。
它的工作原理是:從網頁的url載入網頁的原始碼之後,會在瀏覽器裡執行JavaScript程式。這些程式會載入更多的內容,“填充”到網頁裡。這就是為什麼如果你直接去爬網頁本身的url,你會找不到頁面的實際內容。
這裡,若使用Google Chrome分析”請求“對應的連結(方法:右鍵→審查元素→Network→清空,點選”載入更多“,出現對應的GET連結尋找Type為text/html的,點選,檢視get引數或者複製Request URL),迴圈過程。
· 如果“請求”之前有頁面,依據上一步的網址進行分析推導第1頁。以此類推,抓取Ajax地址的資料。
· 對返回的json格式資料(str)進行正則匹配。json格式資料中,需從'\uxxxx'形式的unicode_escape編碼轉換成u'\uxxxx'的unicode編碼。
7. 自動化測試工具Selenium
Selenium是一款自動化測試工具。它能實現操縱瀏覽器,包括字元填充、滑鼠點選、獲取元素、頁面切換等一系列操作。總之,凡是瀏覽器能做的事,Selenium都能夠做到。
如:如何在給定城市列表後,使用selenium來動態抓取去哪兒網的票價資訊的程式碼?
8. 驗證碼識別
對於網站有驗證碼的情況,我們有三種辦法:
· 使用代理,更新IP。
· 使用cookie登陸。
· 驗證碼識別。
使用代理和使用cookie登陸之前已經講過,下面講一下驗證碼識別。
可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別,將識別的字元傳到爬蟲系統進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平臺上進行識別。如果不成功,可以再次更新驗證碼識別,直到成功為止。
爬取有兩個需要注意的問題:
· 如何監控一系列網站的更新情況,也就是說,如何進行增量式爬取?
· 對於海量資料,如何實現分散式爬取?
9.編碼問題
在解析的過程中要注意編碼問題,因為網頁有UTF-8編碼的,也有GBK編碼的,還有GB2312等等. 如果編碼問題沒有處理好,很有可能會導致輸入輸出異常,正則表示式匹配錯誤等問題.我的解決辦法是堅持一箇中心思想: "不管你是什麼編碼來的,到解析程式統一換成utf-8編碼".比如有的網頁是GBK編碼,在處理之前我會先對它進行一個轉碼操作:
utf8_page = GBK_page.decode("GBK").encode("utf8")
同時在程式碼的初始化位置(或者是最開始部分)我一般會加上以下程式碼:
import sys
reload(sys)
sys.setdefaultencoding('utf8')
同時代碼檔案的編碼方式也要保證是utf-8.
這樣處理調理比較清晰,統一.不會出現一個utf-8的正則表示式和一個GBK的字串做匹配最後啥也匹配不出來.或者輸出的資料即有utf8編碼的字串,又有GBK編碼的字串導致IO錯誤.
如果事先不知道網頁是什麼編碼,建議使用python 的第三方包chardet:https://pypi.python.org/pypi/chardet/ 它可以自動幫你識別出網頁的編碼.用法是:
import chardetimport urllib2
#可根據需要,選擇不同的資料
TestData = urllib2.urlopen('http://www.baidu.com/').read()print chardet.detect(TestData)
分析
抓取之後就是對抓取的內容進行分析,你需要什麼內容,就從中提煉出相關的內容來。
常見的分析工具有正則表示式,BeautifulSoup,lxml等等。
儲存
分析出我們需要的內容之後,接下來就是儲存了。
我們可以選擇存入文字檔案,也可以選擇存入MySQL或MongoDB資料庫等。
儲存有兩個需要注意的問題:
· 如何進行網頁去重?
· 內容以什麼形式儲存?
Scrapy
Scrapy是一個基於Twisted的開源異構的Python爬蟲框架,在工業中應用非常廣泛。