Python 的 urllib.parse 庫解析 URL

阿新 • • 發佈：2018-03-18

pack area AR log gem 查詢參數 other 方法 check

Python 中的 urllib.parse 模塊提供了很多解析和組建 URL 的函數。

解析url

urlparse() 函數可以將 URL 解析成 ParseResult 對象。對象中包含了六個元素，分別為：

協議（scheme）
域名（netloc）
路徑（path）
路徑參數（params）
查詢參數（query）
片段（fragment）

from urllib.parse import urlparse

url=‘http://user:pwd@domain:80/path;params?query=queryarg#fragment‘

parsed_result=urlparse(url)

 
print(‘parsed_result 包含了‘,len(parsed_result),‘個元素‘)
print(parsed_result)

結果為:

parsed_result 包含了 6 個元素
ParseResult(scheme=‘http‘, netloc=‘user:pwd@domain:80‘, path=‘/path‘, params=‘params‘, query=‘query=queryarg‘, fragment=‘fragment‘)

ParseResult 繼承於 namedtuple ，因此可以同時通過索引和命名屬性來獲取 URL 中各部分的值。

為了方便起見， ParseResult 還提供了 username 、 password 、 hostname 、 port 對 netloc 進一步進行拆分。

print(‘scheme  :‘, parsed_result.scheme)
print(‘netloc  :‘, parsed_result.netloc)
print(‘path    :‘, parsed_result.path)
print(‘params  :‘, parsed_result.params)
print(‘query   :‘, parsed_result.query)
print(‘fragment:‘, parsed_result.fragment)
print(‘username:‘, parsed_result.username)
print(‘password: 
‘, parsed_result.password)
print(‘hostname:‘, parsed_result.hostname)
print(‘port    :‘, parsed_result.port)

結果為：

scheme  : http
netloc  : user:pwd@domain:80
path    : /path
params  : params
query   : query=queryarg
fragment: fragment
username: user
password: pwd
hostname: domain
port    : 80

除了 urlparse() 之外，還有一個類似的 urlsplit() 函數也能對 URL 進行拆分，所不同的是， urlsplit() 並不會把路徑參數(params) 從路徑(path) 中分離出來。

當 URL 中路徑部分包含多個參數時，使用 urlparse() 解析是有問題的：

url=‘http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment‘

parsed_result=urlparse(url)

print(parsed_result)
print(‘parsed.path    :‘, parsed_result.path)
print(‘parsed.params  :‘, parsed_result.params)

結果為：

ParseResult(scheme=‘http‘, netloc=‘user:pwd@domain:80‘, path=‘/path1;params1/path2‘, params=‘params2‘, query=‘query=queryarg‘, fragment=‘fragment‘)
parsed.path    : /path1;params1/path2
parsed.params  : params2

這時可以使用 urlsplit() 來解析：

from urllib.parse import urlsplit
split_result=urlsplit(url)

print(split_result)
print(‘split.path    :‘, split_result.path)
# SplitResult 沒有 params 屬性

結果為：

SplitResult(scheme=‘http‘, netloc=‘user:pwd@domain:80‘, path=‘/path1;params1/path2;params2‘, query=‘query=queryarg‘, fragment=‘fragment‘)
split.path    : /path1;params1/path2;params2

若只是要將 URL 後的 fragment 標識拆分出來，可以使用 urldefrag() 函數：

from urllib.parse import urldefrag

url = ‘http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment‘

d = urldefrag(url)
print(d)
print(‘url     :‘, d.url)
print(‘fragment:‘, d.fragment)

結果為：

DefragResult(url=‘http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg‘, fragment=‘fragment‘)
url     : http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg
fragment: fragment

組建URL

ParsedResult 對象和 SplitResult 對象都有一個 geturl() 方法，可以返回一個完整的 URL 字符串。

print(parsed_result.geturl())
print(split_result.geturl())

結果為：

http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment
http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment

但是 geturl() 只在 ParsedResult 和 SplitResult 對象中有，若想將一個普通的元組組成 URL，則需要使用 urlunparse() 函數：

from urllib.parse import urlunparse
url_compos = (‘http‘, ‘user:pwd@domain:80‘, ‘/path1;params1/path2‘, ‘params2‘, ‘query=queryarg‘, ‘fragment‘)
print(urlunparse(url_compos))

結果為：

http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment

相對路徑轉換絕對路徑

除此之外， urllib.parse 還提供了一個 urljoin() 函數，來將相對路徑轉換成絕對路徑的 URL。

from urllib.parse import urljoin

print(urljoin(‘http://www.example.com/path/file.html‘, ‘anotherfile.html‘))
print(urljoin(‘http://www.example.com/path/‘, ‘anotherfile.html‘))
print(urljoin(‘http://www.example.com/path/file.html‘, ‘../anotherfile.html‘))
print(urljoin(‘http://www.example.com/path/file.html‘, ‘/anotherfile.html‘))

結果為：

http://www.example.com/path/anotherfile.html
http://www.example.com/path/anotherfile.html
http://www.example.com/anotherfile.html
http://www.example.com/anotherfile.html

查詢參數的構造和解析

使用 urlencode() 函數可以將一個 dict 轉換成合法的查詢參數：

from urllib.parse import urlencode

query_args = {
    ‘name‘: ‘dark sun‘,
    ‘country‘: ‘中國‘
}

query_args = urlencode(query_args)
print(query_args)

結果為：

name=dark+sun&country=%E4%B8%AD%E5%9B%BD

可以看到特殊字符也被正確地轉義了。

相對的，可以使用 parse_qs() 來將查詢參數解析成 dict。

from urllib.parse import parse_qs
print(parse_qs(query_args))

結果為：

{‘name‘: [‘dark sun‘], ‘country‘: [‘中國‘]}

如果只是希望對特殊字符進行轉義，那麽可以使用 quote 或 quote_plus 函數，其中 quote_plus 比 quote 更激進一些，會把 : 、 / 一類的符號也給轉義了。

from urllib.parse import quote, quote_plus, urlencode

url = ‘http://localhost:1080/~hello!/‘
print(‘urlencode :‘, urlencode({‘url‘: url}))
print(‘quote     :‘, quote(url))
print(‘quote_plus:‘, quote_plus(url))

結果為：

urlencode : url=http%3A%2F%2Flocalhost%3A1080%2F%7Ehello%21%2F
quote     : http%3A//localhost%3A1080/%7Ehello%21/
quote_plus: http%3A%2F%2Flocalhost%3A1080%2F%7Ehello%21%2F

可以看到 urlencode 中應該是調用 quote_plus 來進行轉義的。

逆向操作則使用 unquote 或 unquote_plus 函數：

from urllib.parse import unquote, unquote_plus

encoded_url = ‘http%3A%2F%2Flocalhost%3A1080%2F%7Ehello%21%2F‘
print(unquote(encoded_url))
print(unquote_plus(encoded_url))

結果為：

http://localhost:1080/~hello!/
http://localhost:1080/~hello!/

你會發現 unquote 函數居然能正確地將 quote_plus 的結果轉換回來。

1、獲取url參數

>>>from urllib import parse

>>> url =r‘[https://docs.python.org/3.5/search.html?q=parse&check_keywords=yes&area=default](https://docs.python.org/3.5/search.html?q=parse&check_keywords=yes&area=default)‘

>>> parseResult=parse.urlparse(url)

>>> parseResult

ParseResult(scheme=‘https‘, netloc=‘docs.python.org‘, path=‘/3.5/search.html‘, params=‘‘, query=‘q=parse&check_keywords=yes&area=default‘, fragment=‘ ‘)

>>> param_dict=parse.parse_qs(parseResult.query)

>>> param_dict

{‘q‘: [‘parse‘],‘check_keywords‘: [‘yes‘],‘area‘: [‘default‘]}

>>> q=param_dict[‘q‘][0]

>>> q

‘parse‘

#註意：加號會被解碼，可能有時並不是我們想要的

>>> parse.parse_qs(‘proxy=183.222.102.178:8080&task=XXXXX|5-3+2‘)

{‘proxy‘: [‘183.222.102.178:8080‘],‘task‘: [‘XXXXX|5-3 2‘]}

2、urlencode

>>> from urllib import parse
>>> query = {
  ‘name‘: ‘walker‘,
  ‘age‘: 99,
  }
>>> parse.urlencode(query)
‘name=walker&age=99‘

3、quote/quote_plus

>>> from urllib import parse
>>> parse.quote(‘a&b/c‘)  #未編碼斜線
‘a%26b/c‘
>>> parse.quote_plus(‘a&b/c‘)  #編碼了斜線
‘a%26b%2Fc‘

4、unquote/unquote_plus

from urllib import parse
>>> parse.unquote(‘1+2‘)  #不解碼加號
‘1+2‘
>>> parse.unquote_plus(‘1+2‘)  #把加號解碼為空格
‘1 2‘

Python 的 urllib.parse 庫解析 URL

pack area AR log gem 查詢參數 other 方法 check Python 中的 urllib.parse 模塊提供了很多解析和組建 URL 的函數。解析url urlparse() 函數可以將 URL 解析成 ParseResult

python urllib.parse解析url

1.urllib.parse.urlparse(urlstring, scheme=’’, allow_fragments=True) 功能: 將url分為6部分，返回一個元組；協議, 伺服器的地址(ip:port), 檔案路徑，訪問的頁面 from url

python之路_day107_django中url反向解析及數據庫連接

rom 連接遷移 data spa mysq height port ack 一、url反向解析　　在正式介紹反向解析之前，我們首先介紹一下在django中的url參數，如下為我們url實例，其中name參數就是其別名，也就是我們接下來講解的反向解析中所依靠的參數。

通過python的urllib.request庫來爬取一只貓

com cat alt cnblogs write amazon 技術分享 color lac 我們實驗的網站很簡單，就是一個關於貓的圖片的網站：http://placekitten.com 代碼如下： import urllib.request respond =

python urllib 庫

由於 con items name html png aid post work urllib模塊中的方法 1.urllib.urlopen(url[,data[,proxies]]) 打開一個url的方法，返回一個文件對象，然後可以進行類似文件對象的操作。本例試著打開go

Python urllib的urlretrieve()函數解析 (顯示下載進度)

blog 服務 local nes header ade ref col function 1 #!/usr/bin/python 2 #encoding:utf-8 3 import urllib 4 import os 5 def Schedule(a,b,

Python urllib urlretrieve函數解析

參考臨時文件 tar owa .com 以及保存數據方法 urllib Python urllib urlretrieve函數解析利用urllib.request.urlretrieve函數下載文件覺得有用的話,歡迎一起討論相互學習~Follow Me 參考文獻

python urllib庫

一個 err 局域網可選 html 完全 urllib2 www 本地文件 python2和python3中的urllib urllib提供了一個高級的 Web 通信庫，支持基本的 Web 協議，如 HTTP、FTP 和 Gopher 協議，同時也支持對本地文件的訪問。

Windows環境下python爬蟲常用庫和工具的安裝（UrlLib、Re、Requests、Selenium、lxml、Beautiful Soup、PyQuery 、PyMySQL等等）

本文列出了使用python進行爬蟲時所需的常用庫和工具的安裝過程，基本上只有幾行命令列的功夫就可以搞定，還是十分簡單的。一、UrlLib 與 Re 這兩個庫是python的內建庫，若系統中已經成功安裝了python的話，這兩個庫一般是沒有什麼問題的。驗證開啟命令列，進入

Python爬蟲：Windows系統下用pyquery庫解析含有中文的本地HTML檔案報UnicodeDecodeError的解決方法

由於Windows系統預設GBK編碼，用pyquery解析本地html檔案，如果檔案中有中文，會報錯： UnicodeDecodeError: 'gbk' codec can't decode byte 0xa3 in position 12: illegal multibyte sequenc

python的urllib.parse用法

urllib.parse解析 url:urllib.parse.urlparse(url, scheme='', allow_fragments=True) 簡單的使用： urlparse from urllib import request, parse2 #解析url p

Python中numpy庫unique函式解析

a = np.unique(A)對於一維陣列或者列表，unique函式去除其中重複的元素，並按元素由大到小返回一個新的無元素重複的元組或者列表import numpy as np A = [1, 2, 2, 5,3, 4, 3] a = np.unique(A) B=

python urllib庫使用

urllib是python中的內建庫，為從全球資訊網中抓取資料提供相關的介面。在使用python編寫爬蟲時經常會接觸到這個庫。下面介紹一下urllib庫中的一些方法及相應的例項。 urllib.urlopen(url[, data[, proxies]]) :

urllib庫:解析連結

1from urllib.parse import urlparse, urlunparse, urlsplit, urlunsplit, urljoin, urlencode, parse_qs, par

urllib庫:解析鏈接

letter esc cin adding code per urllib lan color 1from urllib.parse import urlparse, urlunparse, urlsplit, urlunsplit, urljoin, urlencode,

python—urllib庫的使用

Urllib庫 """ python 內建的HTTP請求庫 urllib.request 請求模組 urllib.error 異常處理模組 urllib.parse url解析模組 urllib.robotparser robots.txt 解析模組 """ # python2 im

python中pyquery庫的css選擇器實戰解析

lpad 意思 opened 獲取 .so Coding 追加字符串轉換 default 1.pyquery部分選擇器解釋 """pyquery的CSS選擇器方法""" from pyquery import PyQuery html = """ <div

python解析URL中含有特殊符號的地址

摘要今天在用curl呼叫一個solr地址查詢資料的時候報錯，發現是因為URL地址中含有[ 中括號導致的，既然shell的curl命令不行，想著Python的urllib包可以解析URL地址，

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=F

python-urllib庫學習筆記

import urllib.request, urllib.parse ''' urllib常用的請求語句 ''' url = '' # 傳送請求 res = urllib.request.urlopen(url=url) # 讀取請求到的內容 res.read().de

Python 的 urllib.parse 庫解析 URL

解析url

組建URL

相對路徑轉換絕對路徑

查詢參數的構造和解析

相關推薦