python urllib庫

阿新 • • 發佈：2018-03-12

一個 err 局域網可選 html 完全 urllib2 www 本地文件

python2和python3中的urllib

urllib提供了一個高級的 Web 通信庫，支持基本的 Web 協議，如 HTTP、FTP 和 Gopher 協議，同時也支持對本地文件的訪問。

具體來說，urllib 模塊的功能是利用前面介紹的協議來從因特網、局域網、本地主機上下載數據。

使用這個模塊就無須用到 httplib、ftplib和 gopherlib 這些模塊了，除非需要用到更低層的功能。

Python 2 中有 urlib、urlparse、urllib2，以及其他內容。在 Python 3 中，所有這些相關模塊都整合進了一個名為 urllib 的單一包中。

urlib 和 urlib2 中的內容整合進了 urlib.request模塊中，urlparse 整合進了 urllib.parse 中。

Python 3 中的 urlib 包還包括 response、error 和robotparse 這些子模塊。

URL的格式

prot_sch://net_loc/path;params?query#frag

URL的各個部分（Web地址的各個組件）

prot_sch                           網絡協議或下載方案
net_loc                            服務器所在地（也含有用戶信息）
path                               使用斜杠(/)分割的文件或CGI應用的路徑
params                             可選參數
query                              連接符(&)分割的一系列鍵值對
frag                               指定文檔內特定錨的部分

net_loc 可以進一步拆分成多個組件，一些是必備的，另一些是可選的：
user:passwd@host:port

user                               用戶名或登錄
passwd                             用戶密碼
host                               運行web服務器的計算機名稱或地址（必須的）
port                               端口號(如果不是默認的80)

urllib.parse模塊

在python2中叫做urlparse，在python3中已經改名為urllib.parse

urllib.parse 模塊提供了一些基本功能，用於處理 URL 字符串。這些功能包括 urlparse()、urlunparse()和 urljoin()。

urlparse()將 urlstr 解析成一個 6 元組（prot_sch, net_loc, path, params, query, frag）：

語法：urlparse(urlstr, defProtSch=None, allowFrag=None)
>>> urllib.parse.urlparse("https://www.smelond.com?cat=6")
ParseResult(scheme=‘https‘, netloc=‘www.smelond.com‘, path=‘‘, params=‘‘, query=‘cat=6‘, fragment=‘‘)

urlunparse()的功能與 urlpase()完全相反，其將經 urlparse()處理的 URL 生成 urltup 這個 6元組(prot_sch, net_loc, path, params, query, frag)，拼接成 URL 並返回：

語法：urlunparse(urltup)
>>> result = urllib.parse.urlparse("https://www.smelond.com")
>>> print(result)
ParseResult(scheme=‘https‘, netloc=‘www.smelond.com‘, path=‘‘, params=‘‘, query=‘‘, fragment=‘‘)
>>> urllib.parse.urlunparse(result)
‘https://www.smelond.com‘

在需要處理多個相關的 URL 時我們就需要使用 urljoin()的功能了，例如，一個 Web 頁中可能會產生一系列頁面 URL：

urljoin()取得根域名，並將其根路徑（net_loc 及其前面的完整路徑，但是不包括末端的文件）與 newurl 連接起來。

語法：urljoin (baseurl, newurl, allowFrag=None)
>>> urllib.parse.urljoin("https://www.smelond.com?cat=6","?cat=7")
‘https://www.smelond.com?cat=7‘
>>> urllib.parse.urljoin("https://www.smelond.com?cat=6","abc")
‘https://www.smelond.com/abc‘
>>> urllib.parse.urljoin("https://www.smelond.com?cat=6","/test/abc.html")
‘https://www.smelond.com/test/abc.html‘
>>> urllib.parse.urljoin("https://www.smelond.com","abc.html")
‘https://www.smelond.com/abc.html‘

urllib.parse 模塊中的核心函數描述

urlparse(urlstr,defProSch=None,allowFrag=None)            將urlstr解析成各個組件，如果在urlstr中沒有給定協議或方案，則使用defProtSch;allowFrag 決定是否允許有 URL 片段
urlunparse(urltup)                                        將 URL 數據(urltup)的一個元組拼成一個 URL 字符串
urljoin(baseurl, newurl, allowFrag=None)                  將 URL 的根域名和 newurl 拼合成一個完整的 URL；allowFrag 的作用和urlpase()相同

python urllib庫

python urllib 庫

由於 con items name html png aid post work urllib模塊中的方法 1.urllib.urlopen(url[,data[,proxies]]) 打開一個url的方法，返回一個文件對象，然後可以進行類似文件對象的操作。本例試著打開go

python urllib庫

一個 err 局域網可選 html 完全 urllib2 www 本地文件 python2和python3中的urllib urllib提供了一個高級的 Web 通信庫，支持基本的 Web 協議，如 HTTP、FTP 和 Gopher 協議，同時也支持對本地文件的訪問。

python urllib庫使用

urllib是python中的內建庫，為從全球資訊網中抓取資料提供相關的介面。在使用python編寫爬蟲時經常會接觸到這個庫。下面介紹一下urllib庫中的一些方法及相應的例項。 urllib.urlopen(url[, data[, proxies]]) :

python—urllib庫的使用

Urllib庫 """ python 內建的HTTP請求庫 urllib.request 請求模組 urllib.error 異常處理模組 urllib.parse url解析模組 urllib.robotparser robots.txt 解析模組 """ # python2 im

python-urllib庫學習筆記

import urllib.request, urllib.parse ''' urllib常用的請求語句 ''' url = '' # 傳送請求 res = urllib.request.urlopen(url=url) # 讀取請求到的內容 res.read().de

Python爬蟲入門三之Urllib庫的基本使用

res 瀏覽器中必須答案文件的網頁 one .com 屏幕截圖 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、CSS

Python爬蟲入門：Urllib庫的基本使用

logs 模擬第一個 tps 出了訪問方式 post方式 %d 一段 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、

python爬蟲 urllib庫基本使用

afa 識別 urllib spa response aid gen odin pos 以下內容均為python3.6.*代碼學習爬蟲，首先有學會使用urllib庫，這個庫可以方便的使我們解析網頁的內容，本篇講一下它的基本用法解析網頁 #導入urllib from u

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

Urllib庫：python內建的http請求庫

1、四個模組： request error parse robotparser 2、urlopen(url, data, timeout) 傳送請求 get請求無data； post請求有data 3、read() 獲取響應體的內容 4、Handl

python爬蟲urllib庫使用

urllib包括以下四個模組：　　1.request:基本的HTTP請求模組，可以用來模擬傳送請求。就像在瀏覽器裡輸入網址然後回車一樣，只需要給庫方法傳入URL以及額外的引數，就可以模擬實現這個過程。　　2.error：異常處理模組　　3.parse：提供了許多URL處理方法，如拆分、解析、合併等

python 標準庫 urllib

urllib.request.urlretrieve(url, filename=None) 將url所指向的網路檔案複製到本地。將返回一個tuple，元組()(filename，HTTPMessage)，其中filename是下載後的本地檔名，HTTPMessage包含了相關資訊。

Python：Urllib庫使用

import urllib response = urllib.request.urlopen("https://www.python.org") #返回響應的狀態碼 print(response.status) #返回響應的頭資訊 print(response.ge

Python爬蟲系列-Urllib庫詳解

Urllib庫詳解 Python內建的Http請求庫: * urllib.request 請求模組 * urllib.error 異常處理模組 * urllib.parse url解析模組 * urllib.robotparser robots.txt解析模組 #### 相比在python2基礎上的變化

Python爬蟲之Urllib庫的基本使用

狀態碼 chrom 異常處理 false 基本 sta col thead kit # get請求 import urllib.request response = urllib.request.urlopen("http://www.baidu.com") print(

Python爬蟲第三篇--Urllib庫

簡介 Python內建的HTTP請求庫 urllib.request 請求模組 urllib.error 異常處理模組 urllib.parse url 解析模組 urllib.robotparser robots.txt解析模組 urlopen

python爬蟲urllib庫詳解

什麼是Urllib Urllib是python內建的HTTP請求庫，中文文件如下：https://docs.python.org/3/library/urllib.html包括以下模組urllib.request 請求模組urllib.error 異常處理模組urllib.parse url解析模組urll

Python常用庫urllib中urllib.request模組使用詳解

1.urllib2和urllib庫的區別 Urllib庫是Python中的一個功能強大、用於操作URL，並在做爬蟲的時候經常要用到的庫。在Python2.x中，分為Urllib庫和Urllin2庫，P

python 網路爬蟲入門-Urllib庫的基本使用

學習來源：http://www.cnblogs.com/xin-xin/p/4297852.html 1.分分鐘扒一個網頁下來 import urllib2 response = urllib2.urlopen("http://www.baidu.com") print respon

python urllib庫

python2和python3中的urllib

URL的格式

urllib.parse模塊

在python2中叫做urlparse，在python3中已經改名為urllib.parse

相關推薦