爬蟲urllib庫parse模組的urlparse詳解

阿新 • • 發佈：2019-01-12

一點睛

urllib庫裡還提供了parse這個模組，它定義了處理URL的標準介面，例如實現URL各部分的抽取、合併以及連結轉換。

它支援如下協議的URL處理：file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、 sip、sips、snews、svn、svn+ssh、telnet和wais。

本篇詳細介紹urlparse()。

二 urlparse()詳解

1 程式碼1

from urllib.parse import urlparse
# 該方法可以實現URL的識別和分段
result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')
# 這裡我們利用urlparse()方法進行了一個URL的解析。首先，輸出瞭解析結果的型別，然後將結果也輸出出來。
print(type(result), result)

2 結果1

E:\WebSpider\venv\Scripts\python.exe E:/WebSpider/3_1_3.py
<class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

3 說明1

可以看到，返回結果是一個ParseResult型別的物件，它包含6部分，分別是scheme、netloc、path、params、query和fragment。

觀察一下該例項的URL：http://www.baidu.com/index.html;user?id=5#comment

可以發現，urlparse()方法將其拆分成了6部分。

大體觀察可以發現，解析時有特定的分隔符。比如，://前面的就是scheme，代表協議；第一個/前面便是netloc，即域名；分號;後面是params，代表引數。

所以，可以得出一個標準的連結格式，具體如下：

scheme://netloc/path;parameters?query#fragment

一個標準的URL都會符合這個規則，利用urlparse()方法可以將它拆分開來。

4 urlparse()的API

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)

可以看到，它有3個引數。

urlstring：這是必填項，即待解析的URL。
scheme：它是預設的協議（比如http或https等）。假如這個連結沒有帶協議資訊，會將這個作為預設的協議。
allow_fragments：即是否忽略fragment。如果它被設定為False，fragment部分就會被忽略，它會被解析為path、parameters或者query的一部分，而fragment部分為空。

5 程式碼2

from urllib.parse import urlparse

result = urlparse('www.baidu.com/index.html;user?id=5#comment', scheme='https')
print(result)

6 結果2

E:\WebSpider\venv\Scripts\python.exe E:/WebSpider/3_1_3.py
ParseResult(scheme='https', netloc='', path='www.baidu.com/index.html', params='user', query='id=5', fragment='comment')

7 說明2

提供的URL沒有包含最前面的scheme資訊，但是通過指定預設的scheme引數，返回的結果是https。

scheme引數只有在URL中不包含scheme資訊時才生效。如果URL中有scheme資訊，就會返回解析出的scheme。

8 程式碼3

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment', scheme='https')

9 結果3

ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

10 說明3

scheme引數只有在URL中不包含scheme資訊時才生效。如果URL中有scheme資訊，就會返回解析出的scheme。

11 程式碼4

# allow_fragments：即是否忽略fragment。如果它被設定為False，
# fragment部分就會被忽略，它會被解析為path、parameters或者query的一部分，而fragment部分為空。
from urllib.parse import urlparse

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment', allow_fragments=False)
print(result)

12 結果4

E:\WebSpider\venv\Scripts\python.exe E:/WebSpider/3_1_3.py
ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5#comment', fragment='')

13 程式碼5

from urllib.parse import urlparse

result = urlparse('http://www.baidu.com/index.html#comment', allow_fragments=False)
print(result)

14 結果5

E:\WebSpider\venv\Scripts\python.exe E:/WebSpider/3_1_3.py
ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html#comment', params='', query='', fragment='')

15 說明5

當URL中不包含params和query時，fragment便會被解析為path的一部分。

16 程式碼6

from urllib.parse import urlparse

result = urlparse('http://www.baidu.com/index.html#comment', allow_fragments=False)
print(result.scheme, result[0], result.netloc, result[1], sep='\n')

17 結果6

http
http
www.baidu.com
www.baidu.com

18 說明6

返回結果ParseResult實際上是一個元組，我們可以用索引順序來獲取，也可以用屬性名獲取。

爬蟲urllib庫parse模組API詳解二

一 urlunparse() 1 程式碼 #它接受的引數是一個可迭代物件，但是它的長度必須是6，否則會丟擲引數數量不足或者過多的問題。 from urllib.parse import urlunparse data = ['http', 'www.baidu.com', '

爬蟲urllib庫parse模組的urlparse詳解

一點睛 urllib庫裡還提供了parse這個模組，它定義了處理URL的標準介面，例如實現URL各部分的抽取、合併以及連結轉換。它支援如下協議的URL處理：file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、p

python爬蟲urllib庫詳解

什麼是Urllib Urllib是python內建的HTTP請求庫，中文文件如下：https://docs.python.org/3/library/urllib.html包括以下模組urllib.request 請求模組urllib.error 異常處理模組urllib.parse url解析模組urll

Python常用庫urllib中urllib.request模組使用詳解

1.urllib2和urllib庫的區別 Urllib庫是Python中的一個功能強大、用於操作URL，並在做爬蟲的時候經常要用到的庫。在Python2.x中，分為Urllib庫和Urllin2庫，P

Js中JSON.stringify()與JSON.parse()與eval()詳解及使用案例

div 網絡 blog 處理 ive asc 還要 ava 不同 JSON(JavaScript Object Notation)是一種輕量級的數據交換格式。因為采用獨立於語言的文本格式，也使用了類似於C語言家族的習慣，擁有了這些特性使使JSON稱為理想的數據交換語言，作用

request庫get()方法的詳解

網絡爬蟲信息搜集 ruquests的get()方法r = requests.get(url，params=none,**kwargs)r 包含從服務器返回的所有內容url 需獲取頁面的鏈接params url中的額外參數，字典或者字節流格式，可選**kwargs 12個控制訪問的參數r.sta

[數據庫事務與鎖]詳解三: 深入分析事務的隔離級別

不可 ans 提高重要不能標準 insert lec 使用註明: 本文轉載自http://www.hollischuang.com/archives/943 本文詳細介紹四種事務隔離級別，並通過舉例的方式說明不同的級別能解決什麽樣的讀現象。並且介紹了在關系型數據

[數據庫事務與鎖]詳解一: 徹底理解數據庫事務

存儲數量情況一個數就是可能發生 http 舉例註明: 本文轉載自http://www.hollischuang.com/archives/898 事務事務(Transaction)，一般是指要做的或所做的事情。在計算機術語中是指訪問並可能更新數據庫中各種

[數據庫事務與鎖]詳解七: 深入理解樂觀鎖與悲觀鎖

ood insert 影響 hiberna memcach begin 策略 goods 其它註明: 本文轉載自http://www.hollischuang.com/archives/934在數據庫的鎖機制中介紹過，數據庫管理系統（DBMS）中的並發控制的任務是確保在

2009年上半年數據庫系統工程師答案詳解

糾錯 body 有一個 style 關系 gpo ora 位置能夠海明校驗碼是在n個數據位之外增設k個校驗位,從而形成一個k+n位的新的碼字，使新的碼字的碼距比較均勻地拉大。n與k的關系是（1）。 (1)A.2k-1>=n+k B.2k-1<

轉：SQL Server中服務器角色和數據庫角色權限詳解

ice 擁有錯誤 update ini 語法 remote login spl 當幾個用戶需要在某個特定的數據庫中執行類似的動作時(這裏沒有相應的Windows用戶組)，就可以向該數據庫中添加一個角色(role)。數據庫角色指定了可以訪問相同數據庫對象的一組數據庫用戶。數

boost庫中sleep方法詳解

seconds boost庫 color sys 在線 TP 方法轉載 details 博客轉載自：https://blog.csdn.net/huang_xw/article/details/8453506 boost庫中sleep有兩個方法: 1. 這個方法只能在線程

urllib庫 parse編碼

進行 amp index -s xiaomi name int urllib ont import urllib.parse 如： url = ‘https://www.baidu.com/index?name=xiaoming&age=20‘ #將標準的url進行

python爬蟲 urllib庫基本使用

afa 識別 urllib spa response aid gen odin pos 以下內容均為python3.6.*代碼學習爬蟲，首先有學會使用urllib庫，這個庫可以方便的使我們解析網頁的內容，本篇講一下它的基本用法解析網頁 #導入urllib from u

數據庫-視圖(View)詳解

abi 查詢分析器個人參數訪問主鍵 let .com sans 一、簡介視圖(View)可以看作定義在SQL Server上的虛擬表.視圖正如其名字的含義一樣，是另一種查看數據的入口.常規視圖本身並不存儲實際的數據，而僅僅存儲一個Select語句和所涉及表的met

Oracle數據庫之體系結構詳解，基本操作管理及客戶端遠程連接

plus down 緩沖區擴展名應用提交 normal 系統等待上一篇文章《Oracle Database 12c安裝》講解了如何安裝oracle數據庫，這篇文章繼續講解數據庫的體系結構，基本操作管理及客戶端遠程連接Oracle的體系結構 Oracle數據庫由兩部

python爬蟲urllib庫使用

urllib包括以下四個模組：　　1.request:基本的HTTP請求模組，可以用來模擬傳送請求。就像在瀏覽器裡輸入網址然後回車一樣，只需要給庫方法傳入URL以及額外的引數，就可以模擬實現這個過程。　　2.error：異常處理模組　　3.parse：提供了許多URL處理方法，如拆分、解析、合併等

zxing開源庫工作流程原始碼詳解

程式碼獲取作為移動客戶端開發者來說，對二維碼識別或二維碼生成相關的開發需求肯定並不陌生，Android開發二維碼相關的功能通常都會使用或參考大名鼎鼎的zxing庫。而本文則主要是通過原始碼分析一下該開源庫掃描二維碼的工作流程，對這塊能有個更深的瞭解。首先使用git將專案程式碼clone到本地，新建專案

[基礎]-beautifulsoup模組使用詳解

BeautifulSoup是一個模組，該模組用於接收一個HTML或XML字串，然後將其進行格式化，之後遍可以使用他提供的方法進行快速查詢指定元素，從而使得在HTML或XML中查詢指定元素變得簡單。更多詳情參閱中文文件：https://beautifulsoup.readthedocs.io

[基礎]-requests模組使用詳解

參考官方文件：http://www.python-requests.org/en/master/ 目錄一、傳送請求傳送GET請求：傳送POST請求傳送put請求傳送delete請求傳送head請求傳送options請求二、傳遞

爬蟲urllib庫parse模組的urlparse詳解

相關推薦