【轉】Python3學習筆記（urllib模塊的使用）

阿新 • • 發佈：2018-04-07

nal 方法 utf 網址 pin des IE tps erer

原文地址：https://www.cnblogs.com/Lands-ljk/p/5447127.html

1.基本方法

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

- url: 需要打開的網址

- data：Post提交的數據

- timeout：設置網站的訪問超時時間

直接用urllib.request模塊的urlopen（）獲取頁面，page的數據格式為bytes類型，需要decode（）解碼，轉換成str類型。

1 from urllib import request
2 response = request.urlopen(r‘http://python.org/‘) # <http.client.HTTPResponse object at 0x00000000048BC908> HTTPResponse類型
3 page = response.read()
4 page = page.decode(‘utf-8‘)

urlopen返回對象提供方法：

- read() , readline() ,readlines() , fileno() , close() ：對HTTPResponse類型數據進行操作

- info()：返回HTTPMessage對象，表示遠程服務器返回的頭信息

- getcode()：返回Http狀態碼。如果是http請求，200請求成功完成;404網址未找到

- geturl()：返回請求的url

2.使用Request

`urllib.request.Request`(url, data=None, headers={}, method=None)

使用request（）來包裝請求，再通過urlopen（）獲取頁面。

 1 url = r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘
 2 headers = {
 3     ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
 4                   r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
 5     ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
 6     ‘Connection‘: ‘keep-alive‘
 7 }
 8 req = request.Request(url, headers=headers)
 9 page = request.urlopen(req).read()
10 page = page.decode(‘utf-8‘)

用來包裝頭部的數據：

- User-Agent ：這個頭部可以攜帶如下幾條信息：瀏覽器名和版本號、操作系統名和版本號、默認語言

- Referer：可以用來防止盜鏈，有一些網站圖片顯示來源http://***.com，就是檢查Referer來鑒定的

- Connection：表示連接狀態，記錄Session的狀態。

3.Post數據

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

urlopen（）的data參數默認為None，當data參數不為空的時候，urlopen（）提交方式為Post。

 1 from urllib import request, parse
 2 url = r‘http://www.lagou.com/jobs/positionAjax.json?‘
 3 headers = {
 4     ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
 5                   r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
 6     ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
 7     ‘Connection‘: ‘keep-alive‘
 8 }
 9 data = {
10     ‘first‘: ‘true‘,
11     ‘pn‘: 1,
12     ‘kd‘: ‘Python‘
13 }
14 data = parse.urlencode(data).encode(‘utf-8‘)
15 req = request.Request(url, headers=headers, data=data)
16 page = request.urlopen(req).read()
17 page = page.decode(‘utf-8‘)

`urllib.parse.urlencode`(query, doseq=False, safe=‘‘, encoding=None, errors=None)

urlencode（）主要作用就是將url附上要提交的數據。

1 data = {
2     ‘first‘: ‘true‘,
3     ‘pn‘: 1,
4     ‘kd‘: ‘Python‘
5 }
6 data = parse.urlencode(data).encode(‘utf-8‘)

經過urlencode（）轉換後的data數據為?first=true?pn=1?kd=Python，最後提交的url為

http://www.lagou.com/jobs/positionAjax.json?first=true?pn=1?kd=Python

Post的數據必須是bytes或者iterable of bytes，不能是str，因此需要進行encode（）編碼

1 page = request.urlopen(req, data=data).read()

當然，也可以把data的數據封裝在urlopen（）參數中

4.異常處理

 1 def get_page(url):
 2     headers = {
 3         ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
 4                     r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
 5         ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
 6         ‘Connection‘: ‘keep-alive‘
 7     }
 8     data = {
 9         ‘first‘: ‘true‘,
10         ‘pn‘: 1,
11         ‘kd‘: ‘Python‘
12     }
13     data = parse.urlencode(data).encode(‘utf-8‘)
14     req = request.Request(url, headers=headers)
15     try:
16         page = request.urlopen(req, data=data).read()
17         page = page.decode(‘utf-8‘)
18     except error.HTTPError as e:
19         print(e.code())
20         print(e.read().decode(‘utf-8‘))
21     return page

5、使用代理

`urllib.request.ProxyHandler`(proxies=None)

當需要抓取的網站設置了訪問限制，這時就需要用到代理來抓取數據。

 1 data = {
 2         ‘first‘: ‘true‘,
 3         ‘pn‘: 1,
 4         ‘kd‘: ‘Python‘
 5     }
 6 proxy = request.ProxyHandler({‘http‘: ‘5.22.195.215:80‘})  # 設置proxy
 7 opener = request.build_opener(proxy)  # 掛載opener
 8 request.install_opener(opener)  # 安裝opener
 9 data = parse.urlencode(data).encode(‘utf-8‘)
10 page = opener.open(url, data).read()
11 page = page.decode(‘utf-8‘)
12 return page

【轉】Python3學習筆記（urllib模塊的使用）

nal 方法 utf 網址 pin des IE tps erer 原文地址：https://www.cnblogs.com/Lands-ljk/p/5447127.html 1.基本方法 urllib.request.urlopen(url, data=None, [ti

【轉】Nodejs學習筆記（一）--- 簡介及安裝Node.js開發環境

ack 目錄 javascrip 難度時間網站開發 clas jetbrains 常用目錄學習資料簡介安裝Node.js npm簡介開發工具 Sublime Node.js開發環境配置擴展：安裝多版本管理器學習資料　　1.深入淺出Node.j

【原創】python學習筆記（自學階段1）-- 自學，爬蟲備註--先佔坑

Request：使用者將自己的資訊通過瀏覽器（socket client）傳送給伺服器（socket server） Response：伺服器接收請求，分析使用者發來的請求資訊，然後返回資料（返回的資料中可能包含其他連結，如：圖片，js，css等） ps：瀏覽器在接收Res

【原創】python學習筆記（進階1）-- 自學，爬蟲備註--先佔坑

【整理】python學習筆記（自學階段4）-- 關於各種退出，如sys的exit(n)等

命令列退出命令命令列命令（1） Ctrl+C ：打斷當前指令碼/命令（2） exit ：退出cmd / powershell 後2個類似，進入程式後（1）Ctrl+Z ：退出當前程式 #在命令列裡，已經進入Python後，（2）q

【整理】python學習筆記（自學階段4）-- pygame的方法

PYGAME的方法和官方文件查詢官方文件模組簡介 An array protocol view of surface pixels How to access and control the CD audio devices

【轉】Verilog學習筆記簡單功能實現（八）...............異步FIFO

另一個 gif 多個可靠基本原理 drs bar next 不同基本原理： 1.讀寫指針的工作原理　　寫指針：總是指向下一個將要被寫入的單元，復位時，指向第1個單元(編號為0)。　　讀指針：總是指向當前要被讀出的數據，復位時，指向第1個單元(編號為0)

【轉】Android開發筆記（序）寫在前面的目錄

animator 進程間通信 scrip cst 調用 receiver 手勢打包數據庫基礎原文：http://blog.csdn.net/aqi00/article/details/50012511 知識點分類一方面寫寫自己走過的彎路掉進去的坑，避免以後

【轉】MongoDB學習筆記(查詢)

順序 god ... ive HR 操作方式 mar obj 原文地址 MongoDB學習筆記(查詢) 基本查詢：構造查詢數據。 > db.test.findOne() { "_id" : ObjectId("4fd58ecbb9ac507e96276f1a")

【原創】VBA學習筆記（2）--例項，VBA刪除表中的空行

Sub 巨集1迴圈內刪列() '資料不規範，有的空行是4，有的是6，有的是1就不好處理了 For i = 15 To 100 Step 2 Rows(i).Delete Shift:=xlUp &nb

【原創】python學習筆記（10）--《笨辦法學python》字串處理

字串基本操作（1）字串+字串（2）字串*數字（3）字串+str（其他） # -*- coding:utf-8 -*- print ("test1") name1="alice" name2="bob" name_new=name1+name2 print

【整理】python學習筆記（5）-- pygame庫的函式和方法整理

PYGAME的方法和官方文件查詢官方文件 http://www.pygame.org/docs/ 模組簡介 pygame.BufferProxy An array protocol view

【原創】pygame學習筆記（4）----一個打飛機遊戲

根據資料學習，程式碼是在資料的基礎上，重新打的，有部分修改。轉載資料來源：-will https://www.cnblogs.com/wuzhanpeng/p/4261015.html http://eyehere.net/2011/python-pygame-n

【原創】pygame學習筆記（3）--triviagame答題遊戲

一容易出錯的地方 def _init_(self,name,score) 要記住， __init__ 前後都是兩個下劃線，而不只是1個下劃線二程式碼測試顯示效果正常了，可以玩了現在題目會迴圈玩 # -*- coding:utf

【原創】pygame學習筆記（2）----pie遊戲（需優化）

測試程式碼情況（1）做到了弧形可以按出來（2）數字的顯示正確（3）出的一些低階錯誤 temp:\\pygame2.txt 這樣的錯誤， temp\\pygame2.txt 導致這樣的錯誤，

【原創】pygame學習筆記（1）----基本的線，矩形，圓形，弧形繪製

PYgame的內容（1）這個module很有意思（2）書本至少來源於《Python遊戲程式設計入門》（3）官方權威說明：https://www.pygame.org/docs/ 下面的嘗試把各種圖形在一個程式裡繪製注意點：（1）特別注意，比如引

【轉】Python3 configparse模組（配置）

【轉】Python3 configparse模組（配置） ConfigParser模組在python中是用來讀取配置檔案，配置檔案的格式跟windows下的ini配置檔案相似，可以包含一個或多個節（section），每個節可以有多個引數（鍵=值）。注意：在python 3 中ConfigPars

【C#】C#學習筆記（持續更新）

本章比較雜亂，是本人在學習C#中的一些筆記，並不全面，只是一些隨筆。 1.一個 C# 程式主要包括以下部分：名稱空間宣告（Namespace declaration）一個 class Class 方法 Class 屬性一個 Main 方法語句（Stat

【原創】python學習筆記（5）--《笨辦法學python》，指令碼帶引數

一指令碼檔案（1）簡單的說就是一段自己寫的，可執行的程式碼，否則會報錯（2）簡單指令碼，直接 python xxx1.py （3）帶引數指令碼，需要 python xxx2.py argv1 argv2 argv3 根據指令碼引數的數量，

【原創】python學習筆記（8）--《笨辦法學python》關於list列表

一列表，元組和字典的概念二列表的各種方法 .append() .insert() .sort() .reverse() .index() .count() .remove() # -*- coding:utf-8 -*- #先看下list 再

【轉】Python3學習筆記（urllib模塊的使用）

原文地址：https://www.cnblogs.com/Lands-ljk/p/5447127.html

1.基本方法

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

2.使用Request

urllib.request.Request(url, data=None, headers={}, method=None)

3.Post數據

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

urllib.parse.urlencode(query, doseq=False, safe=‘‘, encoding=None, errors=None)

4.異常處理

5、使用代理

urllib.request.ProxyHandler(proxies=None)

相關推薦

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

`urllib.request.Request`(url, data=None, headers={}, method=None)

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

`urllib.parse.urlencode`(query, doseq=False, safe=‘‘, encoding=None, errors=None)

`urllib.request.ProxyHandler`(proxies=None)