urllib模塊的使用

阿新 • • 發佈：2017-10-22

lin head timeout 對象 per iterable code tpm font

Python3學習筆記（urllib模塊的使用）

1.基本方法

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

- url: 需要打開的網址

- data：Post提交的數據

- timeout：設置網站的訪問超時時間

直接用urllib.request模塊的urlopen（）獲取頁面，page的數據格式為bytes類型，需要decode（）解碼，轉換成str類型。

1 from urllib import request
2 response = request.urlopen(r‘http://python.org/‘) # <http.client.HTTPResponse object at 0x00000000048BC908> HTTPResponse類型
3 page = response.read()
4 page = page.decode(‘utf-8‘)

urlopen返回對象提供方法：

- read() , readline() ,readlines() , fileno() , close() ：對HTTPResponse類型數據進行操作

- info()：返回HTTPMessage對象，表示遠程服務器返回的頭信息

- getcode()：返回Http狀態碼。如果是http請求，200請求成功完成;404網址未找到

- geturl()：返回請求的url

2.使用Request

`urllib.request.Request`(url, data=None, headers={}, method=None

)

使用request（）來包裝請求，再通過urlopen（）獲取頁面。

 1 url = r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘
 2 headers = {
 3     ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
 4                   r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
 5     ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
 6     ‘Connection‘: ‘keep-alive‘
 7 }
 8 req = request.Request(url, headers=headers)
 9 page = request.urlopen(req).read()
10 page = page.decode(‘utf-8‘)

用來包裝頭部的數據：

- User-Agent ：這個頭部可以攜帶如下幾條信息：瀏覽器名和版本號、操作系統名和版本號、默認語言

- Referer：可以用來防止盜鏈，有一些網站圖片顯示來源http://***.com，就是檢查Referer來鑒定的

- Connection：表示連接狀態，記錄Session的狀態。

3.Post數據

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

urlopen（）的data參數默認為None，當data參數不為空的時候，urlopen（）提交方式為Post。

 1 from urllib import request, parse
 2 url = r‘http://www.lagou.com/jobs/positionAjax.json?‘
 3 headers = {
 4     ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
 5                   r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
 6     ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
 7     ‘Connection‘: ‘keep-alive‘
 8 }
 9 data = {
10     ‘first‘: ‘true‘,
11     ‘pn‘: 1,
12     ‘kd‘: ‘Python‘
13 }
14 data = parse.urlencode(data).encode(‘utf-8‘)
15 req = request.Request(url, headers=headers, data=data)
16 page = request.urlopen(req).read()
17 page = page.decode(‘utf-8‘)

`urllib.parse.urlencode`(query, doseq=False, safe=‘‘, encoding=None, errors=None)

urlencode（）主要作用就是將url附上要提交的數據。

1 data = {
2     ‘first‘: ‘true‘,
3     ‘pn‘: 1,
4     ‘kd‘: ‘Python‘
5 }
6 data = parse.urlencode(data).encode(‘utf-8‘)

經過urlencode（）轉換後的data數據為?first=true?pn=1?kd=Python，最後提交的url為

http://www.lagou.com/jobs/positionAjax.json?first=true?pn=1?kd=Python

Post的數據必須是bytes或者iterable of bytes，不能是str，因此需要進行encode（）編碼

1 page = request.urlopen(req, data=data).read()

當然，也可以把data的數據封裝在urlopen（）參數中

4.異常處理

 1 def get_page(url):
 2     headers = {
 3         ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
 4                     r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
 5         ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
 6         ‘Connection‘: ‘keep-alive‘
 7     }
 8     data = {
 9         ‘first‘: ‘true‘,
10         ‘pn‘: 1,
11         ‘kd‘: ‘Python‘
12     }
13     data = parse.urlencode(data).encode(‘utf-8‘)
14     req = request.Request(url, headers=headers)
15     try:
16         page = request.urlopen(req, data=data).read()
17         page = page.decode(‘utf-8‘)
18     except error.HTTPError as e:
19         print(e.code())
20         print(e.read().decode(‘utf-8‘))
21     return page

5、使用代理

`urllib.request.ProxyHandler`(proxies=None)

當需要抓取的網站設置了訪問限制，這時就需要用到代理來抓取數據。

 1 data = {
 2         ‘first‘: ‘true‘,
 3         ‘pn‘: 1,
 4         ‘kd‘: ‘Python‘
 5     }
 6 proxy = request.ProxyHandler({‘http‘: ‘5.22.195.215:80‘})  # 設置proxy
 7 opener = request.build_opener(proxy)  # 掛載opener
 8 request.install_opener(opener)  # 安裝opener
 9 data = parse.urlencode(data).encode(‘utf-8‘)
10 page = opener.open(url, data).read()
11 page = page.decode(‘utf-8‘)
12 return page

urllib模塊的使用

全局變量 urllib模塊 json模塊

pycharm rtt _file__ info 必須地址老男孩是否一個 1、vars（）查看一個.py文件中的全局變量 print(vars())　　　　　#重點 __name__‘: ‘__main__　 ‘__file__‘: ‘

[Python3]HTTP處理 - urllib模塊

color sea 如何使用 code odin publish wiki 行數 search 概述 urllib是python最基礎、最核心的HTTP協議支持庫，諸多第三方庫都依賴urllib，所以urllib是必須掌握的HTTP庫。掌握了urllib有利於：

urllib模塊的使用

lin head timeout 對象 per iterable code tpm font Python3學習筆記（urllib模塊的使用） 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafi

Python學習筆記22（urllib模塊）

ror 轉換 decode urllib模塊 one 處理 context hello mpat Python3和Python2的urllib模塊不太一樣，本篇文章是以Python3為前提。 1.urlopen的使用 import urllib.request urll

Urllib模塊使用

保存 file 構建 live 使用 print lib lencod user Urllib2基礎操作 1、打開網頁(urlopen) 打開一個網頁 import urllib2 response = urllib2.urlopen(‘http://www.b

Python3之urllib模塊

time fault request 方法 encode 數據格式 5.0 urn imp 簡介　　urllib是python的一個獲取url(Uniform Resource Locators，統一資源定位符)，可以用來抓取遠程的數據。常用方法（1）urlopen

urllib 模塊 - module urllib

protoc sage module nbsp when type where glob delet 1 urllib 模塊 - urllib module 2 3 獲取 web 頁面, 4 html = urllib.request.u

urllib模塊中parse函數中的urlencode和quote_plus方法

生成變化嘗試 appid 微信 notify 固定 param reat 本來只是向看一下quote_plus的作用，然後發現urlencode方法也是很方便的一個組合字符串的方法首先是介紹一下urlencode，他是將一些傳入的元素使用&串聯起來，效果如下：

【轉】Python3學習筆記（urllib模塊的使用）

nal 方法 utf 網址 pin des IE tps erer 原文地址：https://www.cnblogs.com/Lands-ljk/p/5447127.html 1.基本方法 urllib.request.urlopen(url, data=None, [ti

Python筆記（十三）：urllib模塊

二進制數據 print web 應用程序 IE query request file （一） URL地址 URL地址組件 URL組件說明 scheme 網絡協議或下載方案 net_loc 服務器所在地（也許含有用戶信息）

urllib 模塊 https://www.cnblogs.com/guishou/articles/7089496.html

數據 use pri present 打開 theme 感受獲取數據 erro 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=

爬蟲二（urllib模塊）

span 訪問 b2b sta 字符串 rom seq app IT 1、在python2和python3中的差異在python2中，urllib和urllib2各有各自的功能，雖然urllib2是urllib的升級版，但是urllib2還是不能完全替代urllib，但是

urllib模塊

hook parse del ads stat class lena retrieve filename f = request.urlopen(url)f.status 獲取status，　　 f.reason獲取狀態碼 f.getheaders()獲取請求頭（鍵值對）f

python學習筆記：網絡請求——urllib模塊

.com auto pos code html 數據 () python學習標準 python操作網絡，也就是打開一個網站，或者請求一個http接口，可以使用urllib模塊。urllib模塊是一個標準模塊，直接import urllib即可，在python3裏面只有ur

爬蟲小試--用python中requests和urllib模塊爬取圖片

源碼一個 -- .text 本地 requests style intel 加載今天突發奇想小試爬蟲,獲取一下某素材站一些圖片實現步驟如下: import re import requests from urllib import request import os

Python urllib 模塊

參數圖片 tmp目錄地址 ssa gen 隨機命名 https urllib 可以用來打開各種協議的URL，常用方法如下： urllib.urlretrieve(url, filename=None)：用於下載URL鏈接對應的內容，如下，下載一張圖片 In [

模塊urllib requests json xml configparser 學習筆記

iter gpa get section 根節點 element empty remove pretty 發起http請求獲取返回值返回值是字符串第三方模塊安裝 pip install requests 返回值格式 xml html jaon json 功能

模塊與包

文件 clas cal 12px ... log 綁定運行查看一：模塊一個模塊就是一個包含了python定義和聲明的文件，文件名就是模塊名字加上.py的後綴。模塊分類有：1：內建模塊，python‘自帶’的模塊，如os、sys 2

eclipse 創建maven模塊

點擊 -1 eba app 1-1 clip module project 過程先創建一個聚合模塊。勾選Create a simple project 點擊finish 。看到已經創建好了這個聚合。接下來我們創建子模塊。pay-hk

Python篇1.15---模塊與包

def lob 是否函數 16px ont 針對自己的 bsp 一.模塊 1 什麽是模塊？一個模塊就是一個包含了python定義和聲明的文件，文件名就是模塊名字加上.py的後綴。 2 為何要使用模塊？如果你退出python解釋器然後重新進入，那麽你之

urllib模塊的使用

Python3學習筆記（urllib模塊的使用）

1.基本方法

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

2.使用Request

urllib.request.Request(url, data=None, headers={}, method=None )

3.Post數據

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

urllib.parse.urlencode(query, doseq=False, safe=‘‘, encoding=None, errors=None)

4.異常處理

5、使用代理

urllib.request.ProxyHandler(proxies=None)

相關推薦

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

`urllib.request.Request`(url, data=None, headers={}, method=None

)

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

`urllib.parse.urlencode`(query, doseq=False, safe=‘‘, encoding=None, errors=None)

`urllib.request.ProxyHandler`(proxies=None)