Python3爬蟲（四）請求庫的使用requests

阿新 • • 發佈：2018-04-27

with open decode python3 url -c highlight pos pen req

Infi-chu:

http://www.cnblogs.com/Infi-chu/

一、基本用法：

1. 安裝：

pip install requests

2. 例子：

import requests
url = ‘http://www.baidu.com‘
r = requests.get(url)
print(type(r))    # 類型是str（JSON格式）
print(r.status_code)
print(r.text)
print(r.cookies)

【註】其余請求方法也是一樣的

r = requests.post(url)
r = requests.put(url)
r = requests.delete(url)
r = requests.head(url)
r = requests.options(url)

3. GET請求：

例子

import requests
url = ‘http://www.baidu.com‘
r = requests.get(url)
print(r.text)

　若想在url中添加參數有兩種方式：

　　a. 直接添加

r = requests.get(url+參數)

　　b. 通過params參數添加

import requests
data = {"name":"Infi-chu","age":"23"}
r = requests.get(url,params=data)

網頁的返回類型是str類型，是JSON格式的，我們可以直接調用 json()方法

若返回結果不是JSON格式，便會出現解析錯誤，拋出 json.decode.JSONDecodeError異常

抓取網頁

可使用正則表達式和headers。

抓取二進制數據

圖片、音頻、視頻等文件本質上都是二進制碼組成的。

抓取GitHub圖標：

import requests
r = requests.get("http://github.com/favicon.ico")
print(r.text)
print(r.content)
# 保存圖片
with open(‘favicon.ico‘,‘wb‘) as f:
    f.write(r.content)

添加headers

在爬取知乎時必須在User-Agent中加入信息，否則不能爬取，會被攔截

4. POST請求

improt requests
data = {‘name‘:‘Infi-chu‘,‘age‘=‘23‘}
r = requests.post(‘http://www.baidu.com‘,data=data)

　成功後會在form中看到所提交的數據（F12查看）

5. 響應

發送數據後，得到的就是響應，我們使用text和content獲取了內容，下面是另外的信息：

import requests
r = requests.get(‘http://www.baidu.com‘)
print(type(r.status_code),r.status_code)
print(type(r.headers),r.headers)
print(type(r.cookies),r.cookies)
print(type(r.history),r.history)
print(type(r.url),r.url)

　headers 屬性返回 CaseInsensitiveDict 類型

　cookies 屬性返回 RequestsCookieJar 類型

二、高級用法：

1.文件上傳

import requests
f = {‘file‘:open(‘favicon.ico‘,‘rb‘)}
r = requests.post(url,files=f)
print(r.text)

2.Cookies

import requests
r = requests.get(url)
print(r.cookies)
for k,v in r.cookies.items():
    print(k+"="+v)

3.會話維持

使用Session對象

import requests
s = requests.Session()
s.get(‘http://httpbin.org/cookies/set/number/123456789‘)
r = s.get(‘http://httpbin.org/cookies‘)
print(r.text)

4.SSL證書驗證

requests提供了證書驗證的功能，使用verify參數控制是否檢查此證書，默認是True，會自動驗證

5.代理設置

對於某些網站，在測試的時候請求幾次，能正常獲取信息，但是一旦大規模爬取，可能會出現驗證碼或直接封掉IP，導致一段時間內無法訪問

代理設置：

import requests
proxy = {‘http‘:‘http://ip:port‘,‘https‘:‘https://ip:port‘}
requests.get(‘https://www.taobao.com‘,proxies=proxy)

6.超時設置

import requests
r = requests.get(‘https://www.taobao.com‘,timeout=1)
print(r.status_code)

7.身份認證

import requests
from requests.auth import HTTPBasicAuth
r = requests.get(url,auth=HTTPBasicAuth(‘username‘,‘password‘))
print(r.status_code)

# 可簡寫為
r = requests.get(url,auth=(‘username‘,‘password‘))
print(r.status_code)
# 也提供了OAuth認證，使用 pip3 install requests_oauthlib

8.Prepared Request

將請求表示為數據結構，這個數據結構叫Prepared Request

Python3爬蟲（四）請求庫的使用requests

with open decode python3 url -c highlight pos pen req Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、基本用法： 1. 安裝： pip install requests 2

python3爬蟲（一）requests庫學習

前段時間利用零散時間在mooc上跟著嵩天老師學習了python爬蟲的相關知識，於是想把自己的學習經歷寫下來，對爬蟲的相關知識做一個歸納總結，文中如果有錯誤或者是不嚴謹的地方，歡迎指出和交流。下面我們開始介紹requests庫

Python3爬蟲（九）數據存儲之關系型數據庫MySQL

如果 except ror 故障 cit -c sqlit 鏈接庫 port Infi-chu: http://www.cnblogs.com/Infi-chu/ 關系型數據庫關系型數據庫是基於關系模型的數據庫，而關系模型是通過二維表來保存的，所以關系型數據庫的存儲方式就

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

Python學習之路（五）爬蟲（四）正則表示式爬去名言網

auth Python標準庫我們 color 匯總 eight code 比較 school 爬蟲的四個主要步驟明確目標 (要知道你準備在哪個範圍或者網站去搜索) 爬 (將所有的網站的內容全部爬下來) 取 (去掉對我們沒用處的數據) 處理數據（按照我們想要的

Python3爬蟲（八）數據存儲之TXT、JSON、CSV

-c pytho IT light json read 信息不包含 exc Infi-chu: http://www.cnblogs.com/Infi-chu/ TXT文本存儲 TXT文本存儲，方便，簡單，幾乎適用於任何平臺。但是不利於檢索。 1.舉例：使用reque

Python從零開始寫爬蟲（二）BeautifulSoup庫使用

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫， BeautifulSoup在解析的時候是依賴於解析器的，它除了支援Python標準庫中的HTML解析器，還支援一些第三方的解析器比如lxml等。可以從其官網得到更詳細的資訊：http://beau

servlet學習（四）請求轉發和重定向

一、請求轉發和重定向兩者之間的區別請求轉發：一次請求，位址列資訊不變。重定向：兩次請求，位址列資訊會發生改變。使用時機： 1.如果表單中有資料，而資料又比較重要，不能重複提交，建議使用重定向。 2.如果servlet接受後

自學python爬蟲（七）selenium庫的使用

一、基本概念 selenium，是一種自動化測施工具，支援多種瀏覽器。爬蟲中主要用來解決JavaScript渲染問題。二、具體用法說在前面：筆者是以GooleChrome瀏覽器來進行測試的，當然其他瀏覽器也可以，具體下面會講到不同的瀏覽器不同做法。 1、下載安裝：chr

自學python爬蟲（五）BeautifulSoup庫的介紹

一、概念 BeautifulSoup是靈活又方便的網頁解析庫，處理高效。支援多種直譯器。利用它可以不用編寫正則表示式即可方便地實現網頁資訊的提取。二、解析庫三、例項講解下面用到的程式碼 html = """<html> <head>

Struts2筆記（四）請求引數的獲取和型別轉換

獲取請求的引數有兩種方式： 1、屬性驅動直接將action做一個model，就可以得到請求引數 html <form action="test/login.do" method="post"> <label>編號:</label><

python3教程（四）：字串

上一節，我們寫出了第一段python程式碼，被打印出來的hello,world 就是一個字串。建立一個字串 #我們可以通過對一串字元加上一對引號來建立一段字串# #括住字串的一對引號，可以是單引號、雙引號或者三引號，但必須是成對出現，也必須是英文格式的# #引號括起來

python爬蟲（四）：scrapy 【1. 快速上手】

中文文件：http://www.scrapyd.cn/doc/ Scrapy是採用Python開發的一個快速、高層次的螢幕抓取和web抓取框架。什麼是爬蟲框架？爬蟲框架是實現爬蟲功能的一個軟體結構和功能元件集合。爬蟲框架是一個半成品，能夠幫助使用者實現專業網路

python爬蟲（四）：scrapy 【2. 其他重要部分】

中文文件：http://www.scrapyd.cn/doc/ 本節包括： 1. resquest 和 response 的屬性方法 2. scrapy提取資訊的強大方法 request 和 response request：

python爬蟲（四）---scrapy框架之騰訊招聘專案實戰

目的：功能就是翻頁請求步驟：如下爬取職位名，職位連結等  職位名：  職位詳情連結：  職位類別：  人數:  地點:  釋出時間：下一步驟：寫爬蟲：tencent.py檔案寫方法一：或者這樣寫

python3筆記（四）while迴圈、for迴圈

Python中有兩種迴圈，分別為：for迴圈和while迴圈。 while迴圈 while 語句的基本用法如下： while 條件表示式: 迴圈體 while迴圈，只要條件滿足，就不斷迴圈，條件不滿足時退出迴圈。比如我們要計算100以

AI探索（四）NumPy庫的使用

NumPy(Numerical Python) 是 Python 語言的一個擴充套件程式庫，支援大量的維度陣列與矩陣運算，此外也針對陣列運算提供大量的數學函式庫。 umPy 是一個執行速度非常快的數學庫，主要用於陣列計算，包含：一個強大的N維陣列物件 ndarray 廣播功能函式整合

scrapy專利爬蟲（四）——資料處理

scrapy專利爬蟲（四）——資料處理說到scrapy的資料處理，就必須先介紹兩個元件item和pipeline。 item item的使用比較簡單，只需要定義一個繼承自scrapy.Item的類，在類中定義需要採集的元素即可，比如： # 專利名稱 na

scrapy專利爬蟲（二）——請求相關

scrapy專利爬蟲（二）——請求相關在這裡筆者將會介紹一些關於傳送request的相關內容。 Spider Spider預設需要填寫三個引數： name spider的獨立名稱，必須唯一 allowe

C++面試總結（四）標準庫

1.什麼是標準庫（STL）？ C++ STL（標準模板庫）是一套功能強大的 C++ 模板類，提供了通用的模板類和函式，這些模板類和函式可以實現多種流行和常用的演算法和資料結構，如向量、連結串列、佇列、棧。 2.C++ 標準模板庫的核心三個元件組成？ 3.string C++ 從

Python3爬蟲（四）請求庫的使用requests

相關推薦