python 爬蟲 02-urllib+request

阿新 • • 發佈：2020-07-13

1. urllib.request模組

1.1 版本

python2 ：urllib2、urllib

python3 ：把urllib和urllib2合併,urllib.request

1.2 常用的方法

urllib.request.urlopen("URL") 作用：向網站發起一個請求並獲取響應
位元組流 = response.read()
字串 = response.read().decode("utf-8")
urllib.request.Request"URL",headers="User-Agent , Referer 之類") 　　# 其得到的物件是

　　　　urlopen()不支援重構User-Agent 其中的request才可以用，一般套路都是框架或模組 urllib.reauest.Request

(url, data=none, headers={},origin_req_host=none,

unverifiable=False, method=None)

- 第一個引數url用於請求URL，肯定是必傳引數，其他都是可選
- 第二個引數data如果要傳，必須是bytes（位元組流）類，如果它是字典可以先用

　　　　urllib.parse模組裡的urlencode()編碼

- 第三個引數headers是一個字典，它就是請求頭，我們可在構造請求是通過headers引數直接構造，

　　　　也可通過呼叫請求例項的add_header()方法

　　　　新增請求頭★最常用的用法是通過修改User-Agent來偽裝瀏覽器，，預設的User-Agent是

　　　　python-urllib,我們可以通過修改它來偽裝瀏覽器。

　　　　如要偽裝火狐瀏覽器：

　　　　Mozilla/5.0(X11;U; Linux i686) Gecko/20071127 Firefox/2.0.0.11

- 第四個引數origin_req_host指的是請求方的host名稱或IP地址
- 第五個引數unverifiable表示這個請求是否無法驗證，預設False，意思是說使用者沒有足夠許可權

　　　　來接受這個請求的結果。

　　　　如我們請求一個HTML文件中的圖片，但是我們沒自動抓取影象的許可權，這是unverifiable的值

　　　　就是True

- 第六個引數method是一個字串，用來致死請求使用的方法，如GET,POST,PUT

1 import urllib.request
2 
3 request = urllib.request.Request('https://python.org')        
4 response = urllib.request.urlopen(request)        #urlopen傳送這個請求
5                             #但是引數不再是URL
6                             #而是一個Request的物件
7 print(response.read().decode('utf-8'))

1.3 響應物件

read() 讀取伺服器響應的內容
getcode()返回HTTP的響應碼　　　　# 就是相應狀態碼 200，301，302，304，404
geturl() 返回實際資料的URL(防止重定向問題)　　# 這裡就是先urlopen（）之後的網站呼叫其 geturl（）看其重定向

2. urllib.parse模組

2.1 常用方法

urlencode(字典)　　#將一些ASCII 不可以列印的字元給轉化了，就是相當於搜尋欄裡面搜中文，&也會被轉，空格也會，非法字元也會
quote(字串) (這個裡面的引數是個字串)

from urllib import request,parse

url = 'http://httpbin.org/post'
headers = {
    'User-Agent':'自己的User-Agent',
    'Host':'httpbin.org'
}
dict = {
    'name':'Sun'
}
data = bytes(parse.urlencode(dict),encoding = 'utf8')
req = request.Request(url = url,data = data,headers = headers,method = 'POST')
reponse = request.urlopen(zeq)
print(reponse.read().decaode('utf-8'))

# 其中url請求URL
# headers指定User-Agent和Host
# 引數data用urlencode()和bytes()方法轉成位元組流
# 請求方法是POST

# 另外，headers也可以用add_header()方法新增!
# req = request.Request(url=url, data=data, method='POST')
# req.add.header('User-agent','新增的User-Agent')

一些其他用法：

 1 #urllib.request模組裡的BaseHandler類是所有其他Handler的父類
 2 #其提供了default_open()、protocol_request()
 3 
 4 
 5 #HTTPDefaultErrorHandler:用於處理HTTP響應錯誤，錯誤都會丟擲HTTPError型別的異常
 6 #HTTPRedirectHandler:用於處理重定向
 7 #HTTPCookieProcessor:用於處理Cookies
 8 #ProxyHandler:用於設定代理，預設空
 9 #HTTPPasswordMgr:用於管理密碼，它維護了使用者名稱和密碼的表
10 #HTTPBasicAuthHandler:用於管理認證，如連線開啟需認證，則可解決

3. 請求方式

GET 特點：查詢引數在URL地址中顯示
POST

在Request方法中新增data引數 urllib.request.Request(url,data=data,headers=headers)
data ：表單資料以bytes型別提交,不能是str

4. requests模組

4.1 安裝

pip install requests
在開發工具中安裝

4.2 request常用方法

requests.get（網址）

4.3 響應物件response的方法

response.text 返回unicode格式的資料(str)
response.content 返回位元組流資料(二進位制)
response.content.decode('utf-8') 手動進行解碼
response.url 返回url
response.encode() = ‘編碼’

4.4 requests模組傳送 POST請求

4.5 requests設定代理

使用requests新增代理只需要在請求方法中(get/post)傳遞proxies引數就可以了
代理網站

想看代理集合？來這裡！！！

重要的就是找到免費代理網站然後存下來做成代理池

4.6 cookie

cookie ：通過在客戶端記錄的資訊確定使用者身份

HTTP是一種無連線協議,客戶端和伺服器互動僅僅限於請求/響應過程,結束後斷開,下一次請求時,伺服器會認為是一個新的客戶端,為了維護他們之間的連線,讓伺服器知道這是前一個使用者發起的請求,必須在一個地方儲存客戶端資訊。

4.7 session

session ：通過在服務端記錄的資訊確定使用者身份這裡這個session就是一個指的是會話

　　解釋：相當於我登入給了cookie，但是下次就沒了，所以用一個會話儲存它，讓一個程式能繼續訪問該站點

4.8 處理不信任的SSL證書

什麼是SSL證書？

SSL證書是數字證書的一種，類似於駕駛證、護照和營業執照的電子副本。因為配置在伺服器上，也稱為SSL伺服器證書。SSL 證書就是遵守 SSL協議，由受信任的數字證書頒發機構CA，在驗證伺服器身份後頒發，具有伺服器身份驗證和資料傳輸加密功能

5. requests 模組原始碼分析

python 爬蟲 02-urllib+request

1. urllib.request模組 1.1 版本 python2 ：urllib2、urllib python3 ：把urllib和urllib2合併,urllib.request

Python爬蟲之urllib基礎用法教程

綜述本系列文件用於對Python爬蟲技術進行簡單的教程講解，鞏固自己技術知識的同時，萬一一不小心又正好對你有用那就更好了。

python爬蟲開發之Request模組從安裝到詳細使用方法與例項全解

python爬蟲模組Request的安裝在cmd中，使用如下指令安裝requests： pip install requests

python爬蟲實現POST request payload形式的請求

1. 背景最近在爬取某個站點時，發現在POST資料時，使用的資料格式是request payload，有別於之前常見的 POST資料格式（Form data）。而使用Form data資料的提交方式時，無法提交成功。

python爬蟲開發之urllib模組詳細使用方法與例項全解

爬蟲所需要的功能，基本上在urllib中都能找到，學習這個標準庫，可以更加深入的理解後面更加便利的requests庫。

python爬蟲開發之使用python爬蟲庫requests，urllib與今日頭條搜尋功能爬取搜尋內容例項

使用python爬蟲庫requests，urllib爬取今日頭條街拍美圖程式碼均有註釋 import re,json,requests,os

Python爬蟲:Request Payload和Form Data的簡單區別說明

Request Payload 和 Form Data 請求頭上的引數差別在於： Content-Type Form Data Post表單請求

python中urllib.request和requests的使用及區別詳解

urllib.request 我們都知道，urlopen()方法能發起最基本對的請求發起，但僅僅這些在我們的實際應用中一般都是不夠的，可能我們需要加入headers之類的引數,那需要用功能更為強大的Request類來構建了

Python urllib.request物件案例解析

剛剛接觸爬蟲，基礎的東西得時時回顧才行，這麼全面的帖子無論如何也得厚著臉皮轉過來啊！

Python 爬蟲乾貨之urllib庫

1. 小試牛刀怎樣扒網頁呢？其實就是根據URL來獲取它的網頁資訊，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML程式碼，加 JS、CSS，如果把網頁比作一個人，

Python爬蟲學習02--pyinstaller

Python爬蟲學習02--打包exe可執行程式 1.上一次做了一個爬蟲爬取電子書的Python程式，然後發現可以通過pyinstaller進行打包成exe可執行程式。發現非常簡單好用

Python爬蟲常用資料庫：Request 介紹講解

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python網路爬蟲規則之Request庫入門

　　Requests庫是Python的第三方庫，它是目前公認的爬取網頁最好的第三方庫。Requests庫有兩個特點，它很簡單簡單，也很簡潔，甚至用一行程式碼從網頁上獲得相關的資源。Requests庫的更多資訊可以在https://requests

spider.?-python中urllib.request和requests的使用和區別

轉載自：https://blog.csdn.net/qq_38783948/article/details/88239109 1.urllib.request 我們都知道，urlopen()方法能發起最基本對的請求發起，但僅僅這些在我們的實際應用中一般都是不夠的，可能我們需要加入heade

從零開始【第二天】 python爬蟲師python教程request模組

python爬蟲師python教程request模組 python教程request模組這個模組，是基礎模組，需要多做練習。建議練習20個案例以上。

一起學爬蟲（Python） — 02

此文轉載自：https://blog.csdn.net/BcXbHello/article/details/110200611 今天要學會爬 requests模組什麼是requests模組如何安裝requests模組怎麼用requests模組

Python 爬蟲--urllib 和 re 模組（第一篇）

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python urllib request模組傳送請求實現過程解析

1.Request()的引數 import urllib.request request=urllib.request.Request(\'https://python.org\') response=urllib.request.urlopen(request)

python爬蟲基礎之urllib的使用

一、urllib 和 urllib2的關係在python2中，主要使用urllib和urllib2，而python3對urllib和urllib2進行了重構，拆分成了urllib.request,urllib.parse,urllib.error，urllib.robotparser等幾個子模組，這樣的架構從邏

Python爬蟲技術--基礎篇--內建模組itertools，contextlib和urllib

1.itertools Python的內建模組itertools提供了非常有用的用於操作迭代物件的函式。

python 爬蟲 02-urllib+request

1. urllib.request模組

1.1 版本

1.2 常用的方法

1.3 響應物件

2. urllib.parse模組

2.1 常用方法

3. 請求方式

4. requests模組

4.1 安裝

4.2 request常用方法

4.3 響應物件response的方法

4.4 requests模組傳送 POST請求

4.5 requests設定代理

4.6 cookie

4.7 session

4.8 處理不信任的SSL證書

5. requests 模組原始碼分析

相關推薦