25-3 requests模組的cookie和代理操作

阿新 • • 發佈：2018-11-03

一.基於requests模組的cookie操作

引言：有些時候，我們在使用爬蟲程式去爬取一些使用者相關資訊的資料（爬取張三“人人網”個人主頁資料）時，如果使用之前requests模組常規操作時，往往達不到我們想要的目的，例如：

 1 #!/usr/bin/env python
 2 # -*- coding:utf-8 -*-
 3 import requests
 4 if __name__ == "__main__":
 5 
 6     #張三人人網個人資訊頁面的url
 7     url = 'http://www.renren.com/289676607/profile'
 8 
 9 
    #偽裝UA
10     headers={
11         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
12     }
13     #傳送請求，獲取響應物件
14     response = requests.get(url=url,headers=headers)
15     #將響應內容寫入檔案
16     with open('./renren.html' 
,'w',encoding='utf-8') as fp:
17         fp.write(response.text)

- 結果發現，寫入到檔案中的資料，不是張三個人頁面的資料，而是人人網登陸的首頁面，why？首先我們來回顧下cookie的相關概念及作用：

　　　　- cookie概念：當用戶通過瀏覽器首次訪問一個域名時，訪問的web伺服器會給客戶端傳送資料，以保持web伺服器與客戶端之間的狀態保持，這些資料就是cookie。

　　　　- cookie作用：我們在瀏覽器中，經常涉及到資料的交換，比如你登入郵箱，登入一個頁面。我們經常會在此時設定30天內記住我，或者自動登入選項。那麼它們是怎麼記錄資訊的呢，答案就是今天的主角cookie了，Cookie是由HTTP伺服器設定的，儲存在瀏覽器中，但HTTP協議是一種無狀態協議，在資料交換完畢後，伺服器端和客戶端的連結就會關閉，每次交換資料都需要建立新的連結。就像我們去超市買東西，沒有積分卡的情況下，我們買完東西之後，超市沒有我們的任何消費資訊，但我們辦了積分卡之後，超市就有了我們的消費資訊。cookie就像是積分卡，可以儲存積分，商品就是我們的資訊，超市的系統就像伺服器後臺，http協議就是交易的過程。

- 經過cookie的相關介紹，其實你已經知道了為什麼上述案例中爬取到的不是張三個人資訊頁，而是登入頁面。那應該如何抓取到張三的個人資訊頁呢？

　　思路：

　　　　1.我們需要使用爬蟲程式對人人網的登入時的請求進行一次抓取，獲取請求中的cookie資料

　　　　2.在使用個人資訊頁的url進行請求時，該請求需要攜帶 1 中的cookie，只有攜帶了cookie後，伺服器才可識別這次請求的使用者資訊，方可響應回指定的使用者資訊頁資料

 1 #!/usr/bin/env python
 2 # -*- coding:utf-8 -*-
 3 import requests
 4 if __name__ == "__main__":
 5 
 6     #登入請求的url（通過抓包工具獲取）
 7     post_url = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201873958471'
 8     #建立一個session物件，該物件會自動將請求中的cookie進行儲存和攜帶
 9     session = requests.session()
10    #偽裝UA
11     headers={
12         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
13     }
14     formdata = {
15         'email': '17701256561',
16         'icode': '',
17         'origURL': 'http://www.renren.com/home',
18         'domain': 'renren.com',
19         'key_id': '1',
20         'captcha_type': 'web_login',
21         'password': '7b456e6c3eb6615b2e122a2942ef3845da1f91e3de075179079a3b84952508e4',
22         'rkey': '44fd96c219c593f3c9612360c80310a3',
23         'f': 'https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3Dm7m_NSUp5Ri_ZrK5eNIpn_dMs48UAcvT-N_kmysWgYW%26wd%3D%26eqid%3Dba95daf5000065ce000000035b120219',
24     }
25     #使用session傳送請求，目的是為了將session儲存該次請求中的cookie
26     session.post(url=post_url,data=formdata,headers=headers)
27 
28     get_url = 'http://www.renren.com/960481378/profile'
29     #再次使用session進行請求的傳送，該次請求中已經攜帶了cookie
30     response = session.get(url=get_url,headers=headers)
31     #設定響應內容的編碼格式
32     response.encoding = 'utf-8'
33     #將響應內容寫入檔案
34     with open('./renren.html','w') as fp:
35         fp.write(response.text)

二.基於requests模組的代理操作

什麼是代理
- 代理就是第三方代替本體處理相關事務。例如：生活中的代理：代購，中介，微商......
爬蟲中為什麼需要使用代理
- 一些網站會有相應的反爬蟲措施，例如很多網站會檢測某一段時間某個IP的訪問次數，如果訪問頻率太快以至於看起來不像正常訪客，它可能就會會禁止這個IP的訪問。所以我們需要設定一些代理IP，每隔一段時間換一個代理IP，就算IP被禁止，依然可以換個IP繼續爬取。
代理的分類：
- 正向代理：代理客戶端獲取資料。正向代理是為了保護客戶端防止被追究責任。
- 反向代理：代理伺服器提供資料。反向代理是為了保護伺服器或負責負載均衡。
免費代理ip提供網站
- http://www.goubanjia.com/
- 西祠代理
- 快代理

程式碼

 1 #!/usr/bin/env python
 2 # -*- coding:utf-8 -*-
 3 import requests
 4 import random
 5 if __name__ == "__main__":
 6     #不同瀏覽器的UA
 7     header_list = [
 8         # 遨遊
 9         {"user-agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)"},
10         # 火狐
11         {"user-agent": "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"},
12         # 谷歌
13         {
14             "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}
15     ]
16     #不同的代理IP
17     proxy_list = [
18         {"http": "112.115.57.20:3128"},
19         {'http': '121.41.171.223:3128'}
20     ]
21     #隨機獲取UA和代理IP
22     header = random.choice(header_list)
23     proxy = random.choice(proxy_list)
24 
25     url = 'http://www.baidu.com/s?ie=UTF-8&wd=ip'
26     #引數3：設定代理
27     response = requests.get(url=url,headers=header,proxies=proxy)
28     response.encoding = 'utf-8'
29     
30     with open('daili.html', 'wb') as fp:
31         fp.write(response.content)
32     #切換成原來的IP
33     requests.get(url, proxies={"http": ""})
34

25-3 requests模組的cookie和代理操作

25-3 requests模組的cookie和代理操作

scrapy框架之cookie和代理操作

（四）requests模組的cookies 和代理操作

[py][mx]django的cookie和session操作

rsync3.1.3的編譯安裝和常用操作

ThinkPHP3.2.3 空模組空控制器空操作的定義

Scala 基礎（3）—— 基礎型別和基礎操作

介面測試 requests中Cookie和會話物件session處理

爬蟲3-time模組和代理

cookie操作和代理

4、【Python】Python 3入門(模組/面向物件/錯誤和異常/檔案操作/序列化/命名規範)

win7_64位操作系統安裝python3.6.3遇到的問題和解決方法

Python3網絡爬蟲（3）：使用User Agent和代理IP隱藏身份

1.3 僅用遞歸函數和棧操作逆序一個棧

【python 3.6】xlwt和xlrd對excel的讀寫操作

python requests 的cookie 操作

python--- bs4和requests模組

requests模組基本使用、代理ip、session訪問

152-練習3和4 迴圈結構練習和字元操作

程式設計3：僅用遞迴函式和棧操作逆序一個棧

25-3 requests模組的cookie和代理操作

相關推薦