爬蟲（1）：requests模組

阿新 • • 發佈：2018-12-22

requests介紹：

reqeusts模組：python原生一個基於網路請求的模組，模擬瀏覽器發起請求。

requests模組的優點：

- 1.自動處理url編碼 
- 2.自動處理post請求的引數
- 3.簡化cookie的代理的操作：
    cookie操作：
    - 建立一個cookiejar物件
    - 建立一個handler物件
    - 建立一個operner

    代理操作：
    - 建立handler物件，代理ip和埠封裝到該物件
    - 建立openner物件

reqeusts的使用流程：

- 安裝：pip install  requests
 
- 使用流程：
    - 1.指定url
    - 2.使用requests模組發起請求
    - 3.獲取響應資料
    - 4.進行持久化儲存

requests的使用：

一、 requests基礎用法：

1. 基於requests模組發起get請求

需求：爬取搜狗首頁的頁面資料

import requests
#指定url
url = 'https://www.sogou.com/'

#發起get請求:get方法會返回請求成功的相應物件
response = requests.get(url=url)

#獲取響應中的資料值:
page_data = response.text  # 
 text可以獲取響應物件中 字串 形式的頁面資料

print(page_data)

#持久化操作
with open('./sougou.html','w',encoding='utf-8') as fp:
    fp.write(page_data)

response物件其他的屬性：

#response物件中其他重要的屬性
import requests
#指定url
url = 'https://www.sogou.com/'

# requests.get() ：發起get請求:get方法會返回請求成功的相應物件
response = requests.get(url=url)

 
# response.content 獲取的是response物件中二進位制（byte）型別的頁面資料
#print(response.content)

# response.status_code ：返回一個響應狀態碼
#print(response.status_code)

# response.headers ：返回響應頭資訊
#print(response.headers)

# response.url ：獲取請求的url
#print(response.url)

requests 傳送攜帶引數 的 get 請求：

需求：指定一個詞條，獲取搜狗搜尋結果所對應的頁面資料

方式一：

import requests

url = 'https://www.sogou.com/web?query=周杰倫&ie=utf-8'  # 引數直接放到 url 中

response = requests.get(url=url)
page_text = response.text

with open('./zhou.html','w',encoding='utf-8') as fp:
    fp.write(page_text)

方式二：

import requests
#自定義請求頭資訊
headers={
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    }
#指定url
url = 'https://www.sogou.com/web'

#封裝get請求引數；放到一個字典中
prams = {
    'query':'周杰倫',
    'ie':'utf-8'
}
#發起請求
response = requests.get(url=url,params=param) # 設定 params=param

response.status_code

自定義請求頭資訊：

import requests
url = 'https://www.sogou.com/web'

#將引數封裝到字典中
params = {
    'query':'周杰倫',
    'ie':'utf-8'
}

#自定義請求頭資訊
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}

response = requests.get(url=url,params=params,headers=headers)  # 設定 headers=headers 請求頭

response.status_code

2. 基於requests模組發起的post請求：

需求：登入豆瓣網，獲取登入成功後的頁面資料

import requests

#1.指定post請求的url
url = 'https://accounts.douban.com/login'

#封裝post請求的引數；POST請求的請求體資訊要放在一個字典中
data = {
    "source": "movie",
    "redir": "https://movie.douban.com/",
    "form_email": "15027900535",
    "form_password": "[email protected]",
    "login": "登入",
}
#自定義請求頭資訊
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}

#2.發起post請求
response = requests.post(url=url,data=data,headers=headers)  # data=data 設定請求體資訊

#3.獲取響應物件中的頁面資料
page_text = response.text

#4.持久化操作
with open('./douban.html','w',encoding='utf-8') as fp:
    fp.write(page_text)

3.基於 Ajax的GET請求：

需求：抓取豆瓣電影上電影詳情的資料

import requests

url = 'https://movie.douban.com/j/chart/top_list?'

#封裝ajax的get請求中攜帶的引數；字典的形式
params = {
    'type':'5',
    'interval_id':'100:90',
    'action':'',
    'start':'100',
    'limit':'20'
}
#自定義請求頭資訊
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}

response = requests.get(url=url,params=params,headers=headers)  # params=params 設定 ajax 請求中攜帶的引數
print(response.text)

4. 基於 ajax的POST請求：

需求：爬去肯德基城市餐廳位置資料

import requests

#1指定url
post_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

#處理post請求的引數；字典的形式
data = {
    "cname": "",
    "pid": "",
    "keyword": "上海",
    "pageIndex": "1",
    "pageSize": "10",
}
#自定義請求頭資訊
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}

#2發起基於ajax的post請求
response = requests.post(url=post_url,headers=headers,data=data)  # data=data 設定 ajax 請求體中的引數

response.text

5. 綜合使用：

需求：爬取搜狗知乎某一個詞條對應一定範圍頁碼錶示的頁面資料

import requests
import os

#建立一個資料夾
if not os.path.exists('./pages'):
    os.mkdir('./pages')
    
word = input('enter a word:')  # 動態傳入要爬取的詞條

#動態指定頁碼的範圍
start_pageNum = int(input('enter a start pageNum:'))
end_pageNum = int(input('enter a end pageNum:'))

#自定義請求頭資訊
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}
#1.指定url:設計成一個具有通用的url
url = 'https://zhihu.sogou.com/zhihu'

for page in range(start_pageNum,end_pageNum+1):
    param = {
        'query':word,
        'page':page,
        'ie':'utf-8'
    }
    response = requests.get(url=url,params=param,headers=headers)
    
    #獲取響應中的頁面資料（指定頁碼（page））
    page_text = response.text
    
    #進行持久化儲存
    fileName = word+str(page)+'.html'
    filePath = 'pages/'+fileName
    with open(filePath,'w',encoding='utf-8') as fp:
        fp.write(page_text)
        print('第%d頁資料寫入成功'%page)

二、requests模組的高階用法：

1. reqeusts模組的cookie操作：

- cookie：
    基於使用者的使用者資料
    - 需求：爬取張三使用者的豆瓣網的個人主頁頁面資料
- cookie作用：伺服器端使用cookie來記錄客戶端的狀態資訊。
實現流程：
    1.執行登入操作（獲取cookie）
    2.在發起個人主頁請求時，需要將cookie攜帶到該請求中
    注意：reqeusts模組的session物件：傳送請求（會將cookie物件進行自動儲存）

示例：

import requests

session = requests.session()  # 利用 requests.session() 去獲取到一個 session 物件；該 session 物件能夠儲存伺服器返回給客戶端的cookie
#1.發起登入請求：將cookie獲取，切儲存到session物件中
login_url = 'https://accounts.douban.com/login'
data = {
    "source": "None",
    "redir": "https://www.douban.com/people/185687620/",
    "form_email": "15027900535",
    "form_password": "[email protected]",
    "login": "登入",
}
headers={
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    }
#使用session發起post請求
login_response = session.post(url=login_url,data=data,headers=headers)  # 利用 requests 的 session物件 傳送 POST請求；通過伺服器的校驗後該 session物件會儲存 cookie

#2.對個人主頁發起請求（session（cookie）），獲取響應頁面資料
url = 'https://www.douban.com/people/185687620/'
response = session.get(url=url,headers=headers)  # 利用 session物件 傳送 GET請求（攜帶著cookie）
page_text = response.text

with open('./douban110.html','w',encoding='utf-8') as fp:
    fp.write(page_text)
    
# 注意： 爬蟲程式應該嚴格遵從瀏覽器的請求流程

2. requests模組的代理操作：

- 1.代理：第三方代理本體執行相關的事物。生活：代購，微商，中介
- 2.為什麼要使用代理？
    - 很多網站有反爬操作；
    - IP代理是一種反反爬手段
- 3.分類：
    - 正向代理：代替客戶端獲取資料 （我們的爬蟲用的是 正向代理）
    - 反向代理：代理伺服器端提供資料
- 4.免費代理ip的網站提供商：
    - www.goubanjia.com   （推薦用這個）
    - 快代理
    - 西祠代理

示例：

import requests

url = 'http://www.baidu.com/s?ie=utf-8&wd=ip'

headers={
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    }

#將代理ip封裝到字典；代理的協議應該和 url 中的協議一致，如：都是 http
proxy = { 
    'http':'77.73.69.120:3128'
}
#更換網路IP
response = requests.get(url=url,proxies=proxy,headers=headers)  # proxies=proxy  設定代理

with open('./daili.html','w',encoding='utf-8') as fp:
    fp.write(response.text)

爬蟲（1）：requests模組

requests介紹： reqeusts模組：python原生一個基於網路請求的模組，模擬瀏覽器發起請求。 requests模組的優點： - 1.自動處理url編碼 - 2.自動處理post請求的引數 - 3.簡化cookie的代理的操作： cookie操作： - 建立一個coo

手把手教你寫網路爬蟲（1）：網易雲音樂歌單

Selenium：是一個強大的網路資料採集工具，其最初是為網站自動化測試而開發的。近幾年，它還被廣泛用於獲取精確的網站快照，因為它們可以直接執行在瀏覽器上。Selenium 庫是一個在WebDriver 上呼叫的API。WebDriver 有點兒像可以載入網站的瀏覽器，但是它也可以像BeautifulSoup

爬蟲（一）——用Requests模組獲取網頁資訊

呼叫requests庫裡面的get方法，獲取網頁的資訊，呼叫page.text獲取網頁原始碼，然後通過print打印出網頁原始碼 import requests page = requests.get(

Python爬蟲（二）：Requests庫

所謂爬蟲就是模擬客戶端傳送網路請求，獲取網路響應，並按照一定的規則解析獲取的資料並儲存的程式。要說 Python 的爬蟲必然繞不過 Requests 庫。 1 簡介對於 Requests 庫，官方文件是這麼說的： Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。警告

小白學 Python 爬蟲（17）：Requests 基礎使用

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

小白學 Python 爬蟲（18）：Requests 進階操作

python爬蟲（四）：scrapy 【1. 快速上手】

中文文件：http://www.scrapyd.cn/doc/ Scrapy是採用Python開發的一個快速、高層次的螢幕抓取和web抓取框架。什麼是爬蟲框架？爬蟲框架是實現爬蟲功能的一個軟體結構和功能元件集合。爬蟲框架是一個半成品，能夠幫助使用者實現專業網路

python爬蟲（五）：實戰【2. 爬創客實驗室（requests + bs4）】

目標：爬取創科實驗室網站中講座的資訊，輸出表：講座標題、報告人、單位、報告時間、講座內容、報告人簡介技術：requests + bs4 檢視爬蟲協議： http://127.0.0.1/lab/robots.txt （創科實驗室是我自己寫的網址，不反爬蟲）

python爬蟲（五）：實戰【1. 檢驗代理ip小程式】

# 檢驗代理ip是否可用 import requests proxy_id = { "http": "http://110.73.42.32:8123"} r = requests.get('http://ip.webmasterhome.cn/', proxies=proxy_id)

pyspider 爬蟲教程（1）：HTML 和 CSS 選擇器

開始之前由於教程是基於 pyspider 的，你可以安裝一個 pyspider（Quickstart，也可以直接使用 pyspider 的 demo 環境： http://demo.pyspider.org/。有需要Python學習資料的小夥伴嗎?小編整理【一套Pyt

python手記（五）：requests寫爬蟲（一）：爬蟲簡介

上次將python的圖片處理庫簡單寫了下，也就基本處於玩的地步。哈哈，蠻嘲諷的，這次我嘗試著寫下爬蟲，有多深肯定是不敢保證的，畢竟能力有限。但是我會盡量去從原理上把爬蟲的東西說明白一些。讓大家有個直觀的認識，最後能自己寫出個簡單的定向小爬蟲，爬個小說，爬個圖片，爬首歌曲什麼的

python手記（五）：requests寫爬蟲（三）：實戰：翻譯器

人生不易且無趣，一起找點樂子吧。歡迎評論，和文章無關也可以。有了前兩篇文章做基礎，我們來實戰，用爬蟲來實現翻譯器。我的瀏覽器是360的，一般搜尋“翻譯”的時候，跳出來的都是360翻譯。like that：寫程式碼前分析

python手記（五）：requests寫爬蟲（二）：bs4處理文字資料

人生無趣且不易，一起找點樂子吧。歡迎評論，和文章無關的也可以。上篇介紹了requests的基本用法，最後我們獲得了網頁的原始碼，並將其存到了文字中：但是，我們需要的並不是全部的程式碼，我們需要的是文章的那一部分。其實requ

python+requests+unittest介面自動化（1）：介面測試

使用的庫就是requests 安裝很簡單，尤其python3+（之後簡稱python3），自帶pip（python2+的朋友可以自行百度下pip的安裝） pip install requests 在開始做介面測試之前，我們先稍微瞭解一下介面是什麼？首先，百度結果：結合實

資料爬蟲（三）：python中requests庫使用方法詳解

一、什麼是Requests Requests 是⽤Python語⾔編寫，基於urllib，採⽤Apache2 Licensed開源協議的 HTTP 庫。它⽐ urllib 更加⽅便，可以節約我們⼤量的⼯作，完全滿⾜HTTP測試需求。⼀句話——Python實現的簡單易

python3爬蟲攻略（9）：requests的使用

Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。 Requests繼承了urllib的所有特性。 Requests支援HTTP連線保持和連線池，支援使用cookie保持會話，支援檔案上傳，支援自動確定響應內容的編碼，支援

爬蟲（19）：深度抓取策略（1）

import requests import re headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)

python爬蟲學習筆記——使用requests庫編寫爬蟲（1）

首先感謝http://python.jobbole.com ，我是看了此站的文章之後才有寫此文的想法，本人也是開始學python不久，此文僅僅是記錄一些學習過程中遇到的問題，邊學邊寫，初次寫這樣的博文，差錯在所難免，如有差錯也請指出，感激不盡。

python爬蟲系列（1）：使用python3和正則表示式獲取貓眼電影排行榜資料

簡述這次打算寫一個爬蟲系列，一邊也想好好總結鞏固學習的知識，一邊做總結筆記，方便以後回憶。這次我們使用Python3和正則表示式來爬取一個簡單html頁面資訊，就從貓眼電影的排行榜單開始吧。如果讀到這篇文章的是位大神，期望您能不吝賜教，指正錯誤，如果您是小白，咋們可以一同

Python爬蟲入門（1）：綜述

大家好哈，最近博主在學習Python，學習期間也遇到一些問題，獲得了一些經驗，在此將自己的學習系統地整理下來，如果大家有興趣學習爬蟲的話，可以將這些文章作為參考，也歡迎大家一共分享學習經驗。 Python版本:2.7，Python 3請另尋其他博文。首先爬蟲是什麼？

爬蟲（1）：requests模組

requests介紹：

requests的使用：

相關推薦