Python之網路請求

阿新 • • 發佈：2019-01-23

一、爬蟲簡介

1、爬蟲的實際例子

（1）搜尋引擎（百度、谷歌、360搜尋等）。
（2）伯樂線上。
（3）惠惠購物助手。
（4）資料分析與研究（資料冰山知乎專欄）。
（5）搶票軟體等。

2、什麼是網路爬蟲

（1）通俗理解：爬蟲是一個模擬人類請求網站行為的程式。可以自動請求網頁、並資料抓取下來，然後使用一定的規則提取有價值的資料

（2）專業介紹：百度百科

3、通用爬蟲和聚焦爬蟲

（1）通用爬蟲：通用爬蟲是搜尋引擎抓取系統（百度、谷歌、搜狗等）的重要組成部分。主要是將網際網路上的網頁下載到本地，形成一個網際網路內容的映象備份。

（2）聚焦爬蟲：是面向特定需求的一種網路爬蟲程式，他與通用爬蟲的區別在於：聚焦爬蟲在實施網頁抓取的時候會對內容進行篩選和處理，儘量保證只抓取與需求相關的網頁資訊。

4、為什麼用Python寫爬蟲程式

（1）PHP：PHP是世界是最好的語言，但他天生不是做這個的，而且對多執行緒、非同步支援不是很好，併發處理能力弱。爬蟲是工具性程式，對速度和效率要求比較高。

（2）Java：生態圈很完善，是Python爬蟲最大的競爭對手。但是Java語言本身很笨重，程式碼量很大。重構成本比較高，任何修改會導致程式碼大量改動。爬蟲經常要修改採集程式碼。

（3）C/C++：執行效率是無敵的。但是學習和開發成本高。寫個小爬蟲程式可能要大半天時間。

（4）Python：語法優美、程式碼簡潔、開發效率高、支援的模組多。相關的HTTP請求模組和HTML解析模組非常豐富。還有Scrapy和Scrapy-redis框架讓我們開發爬蟲變得異常簡單。

5、準備工具

（1）Python3.6開發環境
（2）Pycharm 2017 professional版
（3）虛擬環境。`virtualenv/virtualenvwrapper

二、http協議和Chrome瀏覽器

1、什麼是http和https協議

HTTP協議：全稱是HyperText Transfer Protocol，中文意思是超文字傳輸協議，是一種釋出和接收HTML頁面的方法。伺服器埠號是80埠。 HTTPS協議：是HTTP協議的加密版本，在HTTP下加入了SSL層。伺服器埠號是443埠。

2、在瀏覽器中傳送一個http請求的過程

（1）當用戶在瀏覽器的位址列中輸入一個URL並按回車鍵之後，瀏覽器會向HTTP伺服器傳送HTTP請求。HTTP請求主要分為“Get”和“Post”兩種方法

（2）當我們在瀏覽器輸入URL http://www.baidu.com 的時候，瀏覽器傳送一個Request請求去獲取 http://www.baidu.com 的html檔案，伺服器把Response檔案物件傳送回給瀏覽器

（3）瀏覽器分析Response中的 HTML，發現其中引用了很多其他檔案，比如Images檔案，CSS檔案，JS檔案。瀏覽器會自動再次傳送Request去獲取圖片，CSS檔案，或者JS檔案

（4）當所有的檔案都下載成功後，網頁會根據HTML語法結構，完整的顯示出來了

3、url詳解

URL是Uniform Resource Locator的簡寫，統一資源定位符。一個URL由以下幾部分組成：

例如：scheme://host:port/path/?query-string=xxx#anchor

scheme：代表的是訪問的協議，一般為http或者https以及ftp等
host：主機名，域名，比如www.baidu.com
port：埠號。當你訪問一個網站的時候，瀏覽器預設使用80埠
path：查詢路徑。比如：www.jianshu.com/trending/now，後面的trending/now就是path
query-string：查詢字串，比如：www.baidu.com/s?wd=python，後面的wd=python就是查詢字串
anchor：錨點，後臺一般不用管，前端用來做頁面定位的

在瀏覽器中請求一個url，瀏覽器會對這個url進行一個編碼。除英文字母，數字和部分符號外，其他的全部使用百分號+十六進位制碼值進行編碼。

4、常用的請求方法

在Http協議中，定義了八種請求方法。這裡介紹兩種常用的請求方法，分別是get請求和post請求

（1）get請求：一般情況下，只從伺服器獲取資料下來，並不會對伺服器資源產生任何影響的時候會使用get請求

（2）post請求：向伺服器傳送資料（登入）、上傳檔案等，會對伺服器資源產生影響的時候會使用post請求。以上是在網站開發中常用的兩種方法。並且一般情況下都會遵循使用的原則。但是有的網站和伺服器為了做反爬蟲機制，也經常會不按常理出牌，有可能一個應該使用get方法的請求就一定要改成post請求，這個要視情況而定

5、請求頭常見引數

在http協議中，向伺服器傳送一個請求，資料分為三部分，第一個是把資料放在url中，第二個是把資料放在body中（在post請求中），第三個就是把資料放在head中。這裡介紹在網路爬蟲中經常會用到的一些請求頭引數：

（1）User-Agent：瀏覽器名稱。這個在網路爬蟲中經常會被使用到。請求一個網頁的時候，伺服器通過這個引數就可以知道這個請求是由哪種瀏覽器傳送的。如果我們是通過爬蟲傳送請求，那麼我們的User-Agent就是Python，這對於那些有反爬蟲機制的網站來說，可以輕易的判斷你這個請求是爬蟲。因此我們要經常設定這個值為一些瀏覽器的值，來偽裝我們的爬蟲

（2）Referer：表明當前這個請求是從哪個url過來的。這個一般也可以用來做反爬蟲技術。如果不是從指定頁面過來的，那麼就不做相關的響應

（3）Cookie：http協議是無狀態的。也就是同一個人傳送了兩次請求，伺服器沒有能力知道這兩個請求是否來自同一個人。因此這時候就用cookie來做標識。一般如果想要做登入後才能訪問的網站，那麼就需要傳送cookie資訊了

6、常見響應狀態碼

（1）200：請求正常，伺服器正常的返回資料

（2）301：永久重定向。比如在訪問www.jingdong.com的時候會重定向到www.jd.com

（3）302：臨時重定向。比如在訪問一個需要登入的頁面的時候，而此時沒有登入，那麼就會重定向到登入頁面

（4）400：請求的url在伺服器上找不到。換句話說就是請求url錯誤

（5）403：伺服器拒絕訪問，許可權不夠

（6）500：伺服器內部錯誤。可能是伺服器出現bug了

三、urllib庫

1、urllib庫

urllib庫是Python中一個最基本的網路請求庫。可以模擬瀏覽器的行為，向指定的伺服器傳送一個請求，並可以儲存伺服器返回的資料

2、urlopen函式

在Python3的urllib庫中，所有和網路請求相關的方法，都被集到urllib.request模組下面了，以先來看下urlopen函式基本的使用：

from urllib import request
resp = request.urlopen('http://www.baidu.com')
print(resp.read())

實際上，使用瀏覽器訪問百度，右鍵檢視原始碼。你會發現，跟我們剛才打印出來的資料是一模一樣的。也就是說，上面的三行程式碼就已經幫我們把百度的首頁的全部程式碼爬下來了。一個基本的url請求對應的python程式碼真的非常簡單

以下對urlopen函式的進行詳細講解：
（1）url：請求的url
（2）data：請求的data，如果設定了這個值，那麼將變成post請求
（3）返回值：返回值是一個http.client.HTTPResponse物件，這個物件是一個類檔案控制代碼物件。有read(size)、readline、readlines以及getcode等方法

3、urlretrieve函式

這個函式可以方便的將網頁上的一個檔案儲存到本地。以下程式碼可以非常方便的將百度的首頁下載到本地：

from urllib import request

# 將百度首頁下載到本地
request.urlretrieve('http://www.baidu.com','baidu.html')

# 下載圖片
request.urlretrieve('https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1533566044817&di=7692eeb3301d0433a8e0f8d73da19b0e&imgtype=0&src=http%3A%2F%2Fu.candou.com%2F2017%2F0613%2F1497342507815.jpg'
    ,'luban.jpg')

4、urlencode函式

用瀏覽器傳送請求的時候，如果url中包含了中文或者其他特殊字元，那麼瀏覽器會自動的給我們進行編碼。而如果使用程式碼傳送請求，那麼就必須手動的進行編碼，這時候就應該使用urlencode函式來實現。urlencode可以把字典資料轉換為URL編碼的資料。示例程式碼如下：

from urllib import parse
param = {'name':'張三','age':18,'greet':'Hello World'}
result = parse.urlencode(param)
print(result)

# 編碼並請求
url = 'https://www.baidu.com/s?ie=UTF-8&'
param = {'wd':'劉德華'}
result = parse.urlencode(param)
result = url + result
ps = request.urlopen(result)
print(ps.read())

5、parse_qs函式

可以將經過編碼後的url引數進行解碼。示例程式碼如下：

from urllib import parse
param = {'name':'張三','age':18,'greet':'Hello World'}
result = parse.urlencode(param);
qs = parse.parse_qs(result)
print(qs)

6、urlparse和urlsplit

有時候拿到一個url，想要對這個url中的各個組成部分進行分割，那麼這時候就可以使用urlparse或者是urlsplit來進行分割

from urllib import request,parse

url = 'http://www.baidu.com/s?username=zhiliao'
result1 = parse.urlsplit(url)
result2 = parse.urlparse(url)
print(result1)
print(result2)
print('scheme:',result1.scheme)
print('netloc:',result1.netloc)
print('path',result1.path)
print('query',result1.query)

urlparse和urlsplit基本上是一模一樣的。唯一不一樣的地方是，urlparse裡面多了一個params屬性，而urlsplit沒有這個params屬性。比如有一個url為：url = ‘http://www.baidu.com/s;hello?wd=python&username=abc#1‘，
那麼urlparse可以獲取到hello，而urlsplit不可以獲取到。url中的params也用得比較少

7、request.Request類

如果想要在請求的時候增加一些請求頭，那麼就必須使用request.Request類來實現。比如要增加一個User-Agent

from urllib import request

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
}
req = request.Request("http://www.baidu.com/",headers=headers)
resp = request.urlopen(req)
print(resp.read())

8、ProxyHandler處理器（代理設定）

很多網站會檢測某一段時間某個IP的訪問次數(通過流量統計，系統日誌等)，如果訪問次數多的不像正常人，它會禁止這個IP的訪問。
所以我們可以設定一些代理伺服器，每隔一段時間換一個代理，就算IP被禁止，依然可以換個IP繼續爬取。
urllib中通過ProxyHandler來設定使用代理伺服器

"""
# 沒有使用代理
url = 'http://httpbin.org/ip'
resp = request.urlopen(url)
print(resp.read())
"""

# 使用代理

url = 'http://httpbin.org/ip'
# 1、使用ProxyHandler,傳入代理構建一個handler
handler = request.ProxyHandler({"http":"115.46.73.180:8123"})
# 2、使用上面建立的handler構建一個opener
opener = request.build_opener(handler)
# 3、使用opener去傳送一個請求
resp = opener.open(url)
print(resp.read())

9、什麼是cookie

在網站中，http請求是無狀態的。也就是說即使第一次和伺服器連線後並且登入成功後，第二次請求伺服器依然不能知道當前請求是哪個使用者。cookie的出現就是為了解決這個問題，第一次登入後伺服器返回一些資料（cookie）給瀏覽器，然後瀏覽器儲存在本地，當該使用者傳送第二次請求的時候，就會自動的把上次請求儲存的cookie資料自動的攜帶給伺服器，伺服器通過瀏覽器攜帶的資料就能判斷當前使用者是哪個了。cookie儲存的資料量有限，不同的瀏覽器有不同的儲存大小，但一般不超過4KB。因此使用cookie只能儲存一些小量的資料。

cookie格式：

Set-Cookie: NAME=VALUE；Expires/Max-age=DATE；Path=PATH；Domain=DOMAIN_NAME；SECURE

引數意義：

NAME：cookie的名字
VALUE：cookie的值
Expires：cookie的過期時間
Path：cookie作用的路徑
Domain：cookie作用的域名
SECURE：是否只在https協議下起作用

10、使用cookielib庫和HTTPCookieProcessor模擬登入

Cookie 是指網站伺服器為了辨別使用者身份和進行Session跟蹤，而儲存在使用者瀏覽器上的文字檔案，Cookie可以保持登入資訊到使用者下次與伺服器的會話。
這裡以人人網為例。人人網中，要訪問某個人的主頁，必須先登入才能訪問，登入說白了就是要有cookie資訊。那麼如果我們想要用程式碼的方式訪問，就必須要有正確的cookie資訊才能訪問。解決方案有兩種，第一種是使用瀏覽器訪問，然後將cookie資訊複製下來，放到headers中

from urllib import request

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
    'Cookie': 'anonymid=jacdwz2x-8bjldx; depovince=GW; _r01_=1; _ga=GA1.2.1455063316.1511436360; _gid=GA1.2.862627163.1511436360; wp=1; JSESSIONID=abczwY8ecd4xz8RJcyP-v; jebecookies=d4497791-9d41-4269-9e2b-3858d4989785|||||; ick_login=884e75d4-f361-4cff-94bb-81fe6c42b220; _de=EA5778F44555C091303554EBBEB4676C696BF75400CE19CC; p=61a3c7d0d4b2d1e991095353f83fa2141; first_login_flag=1; [email protected]; ln_hurl=http://hdn.xnimg.cn/photos/hdn121/20170428/1700/main_nhiB_aebd0000854a1986.jpg; t=3dd84a3117737e819dd2c32f1cdb91d01; societyguester=3dd84a3117737e819dd2c32f1cdb91d01; id=443362311; xnsid=169efdc0; loginfrom=syshome; ch_id=10016; jebe_key=9c062f5a-4335-4a91-bf7a-970f8b86a64e%7Ca022c303305d1b2ab6b5089643e4b5de%7C1511449232839%7C1; wp_fold=0'
}

url = 'http://www.renren.com/880151247/profile'

req = request.Request(url,headers=headers)
resp = request.urlopen(req)
with open('renren.html','w') as fp:
    fp.write(resp.read().decode('utf-8'))

但是每次在訪問需要cookie的頁面都要從瀏覽器中複製cookie比較麻煩。在Python處理Cookie，一般是通過http.cookiejar模組和urllib模組的HTTPCookieProcessor處理器類一起使用。http.cookiejar模組主要作用是提供用於儲存cookie的物件。而HTTPCookieProcessor處理器主要作用是處理這些cookie物件，並構建handler物件。

http.cookiejar模組：

該模組主要的類有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。這四個類的作用分別如下：

（1）CookieJar：管理HTTP cookie值、儲存HTTP請求生成的cookie、向傳出的HTTP請求新增cookie的物件。整個cookie都儲存在記憶體中，對CookieJar例項進行垃圾回收後cookie也將丟失。

（2）FileCookieJar (filename,delayload=None,policy=None)：從CookieJar派生而來，用來建立FileCookieJar例項，檢索cookie資訊並將cookie儲存到檔案中。filename是儲存cookie的檔名。delayload為True時支援延遲訪問訪問檔案，即只有在需要時才讀取檔案或在檔案中儲存資料。

（3）MozillaCookieJar (filename,delayload=None,policy=None)：從FileCookieJar派生而來，建立與Mozilla瀏覽器 cookies.txt相容的FileCookieJar例項

（4）LWPCookieJar (filename,delayload=None,policy=None)：從FileCookieJar派生而來，建立與libwww-perl標準的 Set-Cookie3 檔案格式相容的FileCookieJar例項

11、登入人人網

利用http.cookiejar和request.HTTPCookieProcessor登入人人網


# 使用cookieJar訪問人人網

from urllib import request
from http.cookiejar import CookieJar
from urllib import parse

headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',

}
def get_opener():
    # 1、登陸
    # 1.1 建立一個cookiejar物件
    cookiejar = CookieJar()
    # 1.2 使用cookiejar建立一個HTTPCookieProcess物件
    handler = request.HTTPCookieProcessor(cookiejar)
    # 1.3 使用上一步建立的handler建立一個opener
    opener = request.build_opener(handler)
    return opener

def login_renren(opener):
    # 1.4 使用opener傳送登陸請求(包含人人網的郵箱密碼)
    data = {
        'email':"[email protected]",
        'password':"pythonspider"
    }
    login_url = "http://www.renren.com/PLogin.do"
    req = request.Request(url=login_url,data=parse.urlencode(data).encode('utf-8'),headers=headers)
    opener.open(req)


def visit_profile(opener):
    # 2、訪問個人主頁
    depeng_url = "http://www.renren.com/880151247/profile"
    req = request.Request(depeng_url,headers=headers)
    # 獲取個人主頁的頁面的時候，不要新建一個opener
    # 而是應該使用之前的opener，因為之前的那個opener
    # 包含了登陸的cookie
    resp = opener.open(req)
    with open('renren.html','w',encoding='utf-8') as fp:
        fp.write(resp.read().decode('utf-8'))


if __name__ == '__main__':
    opener = get_opener()
    login_renren(opener)
    visit_profile(opener)

12、儲存cookie到本地

儲存cookie到本地，可以使用cookiejar的save方法，並且需要指定一個檔名

# 將cookie資訊儲存到本地檔案
from urllib import request
from http.cookiejar import MozillaCookieJar

# # 指定儲存到cookie.txt檔案中
cookiejar = MozillaCookieJar('cookie.txt')

handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)

resp = opener.open('http://www.baidu.com')

# ignore_discard=True 將過期的cookie資訊也儲存
cookiejar.save(ignore_discard=True)

從本地檔案中獲取cookie資訊：

from urllib import request
from http.cookiejar import MozillaCookieJar
# 從本地檔案中讀取cookie資訊
cookiejar2 = MozillaCookieJar('cookie.txt')
# 匯入cookie(包含過期的)
cookiejar2.load(ignore_discard=True)
handler2 = request.HTTPCookieProcessor(cookiejar2)
opener2 = request.build_opener(handler2)
# 迴圈列印cookie資訊
for cookie in cookiejar2:
    print(cookie)