python的urllib學習

阿新 • • 發佈：2017-12-28

blog label 檢查 post 操作頭信息 www browser from

1.基本方法

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

- url: 需要打開的網址

- data：Post提交的數據

- timeout：設置網站的訪問超時時間

直接用urllib.request模塊的urlopen（）獲取頁面，page的數據格式為bytes類型，需要decode（）解碼，轉換成str類型。

1 from urllib import request
2 response = request.urlopen(r‘http://python.org/‘) # <http.client.HTTPResponse object at 0x00000000048BC908> HTTPResponse類型
3 page = response.read()
4 page = page.decode(‘utf-8‘)

urlopen返回對象提供方法：

- read() , readline() ,readlines() , fileno() , close() ：對HTTPResponse類型數據進行操作

- info()：返回HTTPMessage對象，表示遠程服務器返回的頭信息

- getcode()：返回Http狀態碼。如果是http請求，200請求成功完成;404網址未找到

- geturl()：返回請求的url

2.使用Request

`urllib.request.Request`(url, data=None, headers={}, method=None

)

使用request（）來包裝請求，再通過urlopen（）獲取頁面。

 1 url = r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘
 2 headers = {
 3     ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
 4                   r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
 5     ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
 6     ‘Connection‘: ‘keep-alive‘
 7 }
 8 req = request.Request(url, headers=headers)
 9 page = request.urlopen(req).read()
10 page = page.decode(‘utf-8‘)

用來包裝頭部的數據：

- User-Agent ：這個頭部可以攜帶如下幾條信息：瀏覽器名和版本號、操作系統名和版本號、默認語言

- Referer：可以用來防止盜鏈，有一些網站圖片顯示來源http://***.com，就是檢查Referer來鑒定的

- Connection：表示連接狀態，記錄Session的狀態。

3.Post數據

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

urlopen（）的data參數默認為None，當data參數不為空的時候，urlopen（）提交方式為Post。

 1 from urllib import request, parse
 2 url = r‘http://www.lagou.com/jobs/positionAjax.json?‘
 3 headers = {
 4     ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
 5                   r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
 6     ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
 7     ‘Connection‘: ‘keep-alive‘
 8 }
 9 data = {
10     ‘first‘: ‘true‘,
11     ‘pn‘: 1,
12     ‘kd‘: ‘Python‘
13 }
14 data = parse.urlencode(data).encode(‘utf-8‘)
15 req = request.Request(url, headers=headers, data=data)
16 page = request.urlopen(req).read()
17 page = page.decode(‘utf-8‘)

`urllib.parse.urlencode`(query, doseq=False, safe=‘‘, encoding=None, errors=None)

urlencode（）主要作用就是將url附上要提交的數據。

1 data = {
2     ‘first‘: ‘true‘,
3     ‘pn‘: 1,
4     ‘kd‘: ‘Python‘
5 }
6 data = parse.urlencode(data).encode(‘utf-8‘)

經過urlencode（）轉換後的data數據為?first=true?pn=1?kd=Python，最後提交的url為

http://www.lagou.com/jobs/positionAjax.json?first=true?pn=1?kd=Python

Post的數據必須是bytes或者iterable of bytes，不能是str，因此需要進行encode（）編碼

1 page = request.urlopen(req, data=data).read()

當然，也可以把data的數據封裝在urlopen（）參數中

4.異常處理

 1 def get_page(url):
 2     headers = {
 3         ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
 4                     r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
 5         ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
 6         ‘Connection‘: ‘keep-alive‘
 7     }
 8     data = {
 9         ‘first‘: ‘true‘,
10         ‘pn‘: 1,
11         ‘kd‘: ‘Python‘
12     }
13     data = parse.urlencode(data).encode(‘utf-8‘)
14     req = request.Request(url, headers=headers)
15     try:
16         page = request.urlopen(req, data=data).read()
17         page = page.decode(‘utf-8‘)
18     except error.HTTPError as e:
19         print(e.code())
20         print(e.read().decode(‘utf-8‘))
21     return page

5、使用代理

`urllib.request.ProxyHandler`(proxies=None)

當需要抓取的網站設置了訪問限制，這時就需要用到代理來抓取數據。

 1 data = {
 2         ‘first‘: ‘true‘,
 3         ‘pn‘: 1,
 4         ‘kd‘: ‘Python‘
 5     }
 6 proxy = request.ProxyHandler({‘http‘: ‘5.22.195.215:80‘})  # 設置proxy
 7 opener = request.build_opener(proxy)  # 掛載opener
 8 request.install_opener(opener)  # 安裝opener
 9 data = parse.urlencode(data).encode(‘utf-8‘)
10 page = opener.open(url, data).read()
11 page = page.decode(‘utf-8‘)
12 return page

python的urllib學習

6、自學——Linux的學習進度與任務【FHS】

include 同名 med 可選第三方安裝 lin 三方引導 FHS：文件層次標準 FHS:文件層次標準　　 / : 代表根目錄　　 /bin: 二進制文件，可執行程序，所有用戶都能用。　　/sbin: 只有管理員執行的，二進制可執行程序。

Robot Operating System (ROS)學習筆記4---語音控制

sla 語音出現 tput http 學習 process 輸入 ubun 搭建環境：XMWare Ubuntu14.04 ROS（indigo）轉載自古月居轉載連接：http://www.guyuehome.com/260 一、語音識別包 1、安裝

2017.5.3上午學習內容

技術 images logs log -1 alt cnblogs 學習內容 image 聽刑法第十一章2017.5.3上午學習內容

設計模式學習總結（八）策略模式(Strategy)

isp 筆記本 override div ont 角色 write stat 通過　　策略模式，主要是針對不同的情況采用不同的處理方式。如商場的打折季，不同種類的商品的打折幅度不一，所以針對不同的商品我們就要采用不同的計算方式即策略來進行處理。　　一、示例展示：　　以

設計模式學習總結（七）適配器模式(Adapter)

實現接口國外手機額外 sed ges program ebe 通過　　適配器模式主要是通過適配器來實現接口的統一，如要實現國內手機在國外充電，則需要在不同的國家采用不同的適配器來進行兼容！　　一、示例展示：　　以下例子主要通過給筆記本電腦添加類似手機打電話和發短

5月3日學習收獲

rate add 破解 mdk ext visio 不能區別 .exe keil uvision4 破解：MDK412安裝包→一路next→安裝好了之後，用管理員模式打開軟件→File→License Management→Computer ID→復制CID→keilli

python學習之路（四）

[1] size class dex epc uri msu 語句這就是繼續昨天的學習，學到了數組。首先有兩個數組，name1和name2.我們可以將兩個數組合並 name1=[1,2,3,4] name2=[5,6,7,8] names=name1.extend(

5月3日上午學習日誌

能力程序系統調用 logs 學習日誌執行 shel 管理軟件 -1 2017年5月3日上午把昨天記憶的英語單詞的多種詞意用自己組句的方法聯系起來再記憶一遍，然後再學10個考研高頻詞匯，完成英語app的打卡和看通信工程視頻。今天基本上完成了通信工程教學視頻中對操作系統組

MySQL學習筆記（六）—— MySQL自連接

概念 cor 子查詢 ron 表操作例子質量 _id order by 有的時候我們需要對同一表中的數據進行多次檢索,這個時候我們可以使用之前學習過的子查詢,先查詢出需要的數據,再進行一次檢索。例如:一張products表,有產品id,供應商id(vend_

PHP學習路線[轉]

訪問驗證開發技術 adc 階段 javascrip 性能導航段落第一階段第一講，WEB基礎 1.1 網站基本知識； 1.2 網絡協議介紹； 1.3 B/S與C/S結構的區別； 1.4 WEB編程、網站開發技術介紹。第二講，網頁設計

學習過程遇到問題的解決方法

_exit 變量 prot 預定義變量 void col malloc() lee 項目組 1.select.sh 用sh -x 和bash -x的進行腳本調試時，前者會報錯誤，這是內置shell的原因。 2.awk內置函數使用時，定義變量需要用-v ；awk -v s

Linux學習134 Unit 8

windows linux 客戶端記錄認證 Unit8 ldap網絡帳號1.ldap是什麽ldap目錄服務認證，和windows活動目錄類似，就是記錄數據的一種方式 2.ldap客戶端所須軟件yum sssd krb5-workstation -y 3.如何開啟ldap用戶認證auth

Linux學習134 Unit 11

系統恢復unit11系統恢復1.系統啟動流程通電 ||bios(主板上的只讀存儲中，basic input or output system)作用，硬件檢測，激活硬件||grub系統引導（grub引導分為兩個階段）1）階段1 mbr（主引導記錄）主引導記錄在硬盤上的0磁道，一扇區，446個字節*）dd if=

nodejs學習之安裝

c盤信息如果安裝過程 ima 打開 nodejs https x64 1. 官網找最新適合自己電腦的版本下載 https://nodejs.org/en/download/ 2.我的是win7 x64選擇了msi的安裝包，安裝過程修改安裝的目標目錄，最好不要

Redis的安裝及學習

mongod 無效擴展管理數據持久化 windows string類型實例配置最近因為做Chatbot項目需要對於NoSQL數據庫進行研究，調研範圍包括MongoDB和Redis。本文將介紹Redis在Windows環境的安裝及如何利用python來操作Redi

Struts2學習三----------Action搜索順序

Mysql學習之十二：JDBC連接數據庫之DriverManager方法

url state 種類 delet rom 條件管理系 ont into JDBC連接數據庫 ?創建一個以JDBC連接數據庫的程序，包括7個步驟： 1、載入JDBC驅動程序：在連接數據庫之前。首先要載入想要連接的數據庫的驅動到JVM

jquery 深入學習筆記之中的一個（事件綁定）

color 動態 name his pan mouseover this pre con 【jquery 事件綁定】 1、加入元素事件綁定 (1) 加入事件為當前元素 $(‘p‘).on(‘click‘,function(){ //code here ..

python 學習方法

模塊經驗 utili 交互 class 印象 www 進行 os.path 依據本人的學習經驗，我總結了下面十點和大家分享： 1）學好python的第一步。就是立即到www.python.org站點上下載一個python版本號。我建議剛開始學習的人，不要下載具有ID

正確學習Linux系統的5個建議

windows 服務器應用軟件安全性穩定性最近幾年Linux系統應用越來越廣泛，以至於很多人開始熱衷學習Linux。但是我們都是從小都是學習windows系統長大的，從windows 98到現在的windows 10，而根據學習windows系統的經驗來學習Linux，使很多人越學

python的urllib學習

1.基本方法

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

2.使用Request

urllib.request.Request(url, data=None, headers={}, method=None )

3.Post數據

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

urllib.parse.urlencode(query, doseq=False, safe=‘‘, encoding=None, errors=None)

4.異常處理

5、使用代理

urllib.request.ProxyHandler(proxies=None)

相關推薦

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

`urllib.request.Request`(url, data=None, headers={}, method=None

)

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

`urllib.parse.urlencode`(query, doseq=False, safe=‘‘, encoding=None, errors=None)

`urllib.request.ProxyHandler`(proxies=None)