爬蟲筆記2：urllib庫的使用

阿新 • • 發佈：2019-01-12

urllib概述
urllib是Python內建的HTTP請求庫，是Python自帶的庫，只要安裝了Python就有了。urllib主要包含4個模組：request，error，parse，robotparser。

request模組
request是提供了實現請求的方法：urlopen()，返回的是HTTPResponse物件。
urlopen()通過傳參可以構造一個完整的請求，比較常用的引數有url，data，timeout：
1. url就是我們要求請的超連結的地址；
2. data引數是可選的，主要用於模擬表單提交，但是傳遞前需要將引數轉化為位元組流的格式：
dict = {
'name' : 'Tom',
'age' : 20
}
data = bytes(parse.urlencode(dict),encoding='utf-8')
respnse = request.urlopen(url='',data=data) 
3.timeout用於設定超時時間，單位是秒，如果請求超過了設定時間，就會丟擲一個URLError異常；
4.其他引數如context是設定SSL，cafile設定CA證書，capath設定CA證書路徑。

HTTPResponse物件有很多方法和屬性，常見的有：
1.read()，返回網頁的內容；
2.getheaders()，返回響應頭資訊；
3.getheader()，與getheaders()類似，只是要指定引數獲取某一響應頭的資訊：
response = urllib.request.urlopen('https://baidu.com')
print(response.getheader('server'))
輸出結果為BWS/1.1 
4.msg：請求是否成功；
5.status：請求狀態碼；
request模組還有一個重要就是Request()，Request()主要是構建一個更加強大的請求：主要在於引數headers上，我們可以通過向headers傳遞一個字典，偽裝成瀏覽器實現爬蟲，其他引數和urlopen差不多。

error模組
error模組定義了請求是產生的異常，如果在請求時發生錯誤，就會丟擲一個error模組定義的異常。捕獲異常的作用是，當我們的程式發生錯誤時，不會因此程式的終止，同時也能夠捕獲異常的原因。
URLError：URLError繼承了OSError類，是Error模組的基類；
HTTPError：是URLError的子類，專門用來處理HTTP請求錯誤。
若是請求一個不存在的頁面，就會報出Not found的資訊。
try:
response = request.urlopen('https://zhihu.com/notfound.html')
except error.URLError as e:
print(e.reason)

parse模組
parse模組提供了多種處理URL的API：
1.urlparse()：實現對URL的分段；
result = parse.urlparse('https://www.baidu.com/s;user?wd=爬蟲&rsv_spt=1&issp=1')
print(result)
輸出結果：ParseResult(scheme='https', netloc='www.baidu.com', path='/s', 
params='user', query='wd=爬蟲&rsv_spt=1&issp=1', fragment='')
2.urlunparse()：可以理解為urlparse()的逆過程；
3.urlsplit()：與urlparse()類似，只是分段結果將params合併到path裡去了；
4.urlunsplit()：urlsplit()的逆過程；
5.urljoin()：實現連結的合併；
6.urlencode()：將引數字典序列化為連結：
params = {
'name' : 'Tom',
'age' : 20
}
url = 'https:baidu.com?'
url = url + parse.urlencode(params)
print(url)
輸出結果為：https:baidu.com?name=Tom&age=20
7.parse_qs()：urlencode()的逆過程，將引數轉化為字典；
8.parse_qsl()：也是urlencode()的逆過程，只是將引數轉化為列表與元組；
9.quote()：我們開啟百度搜索中文欄位時，會發現連結的搜尋內容被編碼了，利用quote()可以達到此效果，同時，這也是防止亂碼的有效手段：
keyword = '爬蟲'
url = 'https://www.baidu.com/s?wd=' + parse.quote(keyword)
print(url)
輸出結果為：https://www.baidu.com/s?wd=%E7%88%AC%E8%99%AB
10.unquote()：quote()的逆過程。

一個小案例：

from urllib import request
from urllib import error
from urllib import parse

base_url = 'https://www.baidu.com/s?'
data_dict = {
    'wd' : '爬蟲'
}
url = base_url + parse.urlencode(data_dict)
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
    }
try:
    req = request.Request(url,headers=headers)
    response = request.urlopen(req)
    print(response.read().decode('utf-8'))
except error.HTTPError as e:
    if e.code == 404:
        print('Not Found!')

爬蟲筆記2：urllib庫的使用

urllib概述urllib是Python內建的HTTP請求庫，是Python自帶的庫，只要安裝了Python就有了。urllib主要包含4個模組：request，error，parse，robotparser。 request模組request是提供了實現請求的方法：urlopen()

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

爬蟲筆記3：requests庫使用

esp pri 進行驗證 get .com 使用 quest pro requests庫概述Python內置的urllib庫在對於Cookies，登錄驗證，代理方面等操作太繁瑣。而requests庫在這些方面卻做得很好！請求方法：get()，返回一個Respon

Python爬蟲入門：Urllib庫的基本使用

logs 模擬第一個 tps 出了訪問方式 post方式 %d 一段 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、

爬蟲（二）：Urllib庫詳解

lib lwp ces lin 設置內置 col http測試 url 什麽是Urllib： python內置的HTTP請求庫 urllib.request : 請求模塊 urllib.error : 異常處理模塊 urllib.parse： url解析模塊 urllib

python爬蟲學習筆記二：Requests庫詳解及HTTP協議

Requests庫的安裝：https://mp.csdn.net/postedit/83715574 r=requests.get(url,params=None,**kwargs) 這個r是Response物件 url ：擬獲取頁面的url連結 params：url中的額外引數

python爬蟲學習筆記五：Re庫的介紹和使用

Re庫介紹 Re庫是Python的標準庫，主要用於字串匹配。呼叫方式： import re 正則表示式的表示型別 *raw string 型別（原生字串型別）： re庫採用raw string型別表示正則表示式，表示為：r'text' 例如：r'[1-9]\d{5}

python爬蟲學習筆記四：BeautifulSoup庫對HTML文字進行操作

只要你提供的資訊是標籤，就可以很好的解析怎麼使用BeautifulSoup庫？ from bs4 import BeautifulSoup soup=BeautifulSoup('<p>data<p>','html.parser'）例如： import

Spring學習筆記-2：JSP標準標籤庫

個人部落格站已經上線了，網址 www.llwjy.com ~歡迎各位吐槽~-------------------------------------------------------------------------------------------------

Python3爬蟲學習筆記（1.urllib庫詳解）

1.什麼是爬蟲：略，到處都有講解。雖然是入門，不過沒有Python基礎的同學看起來可能費勁，建議稍學下Python 之前學習前端知識也是為了能看懂HTML，便於爬蟲學習，建議瞭解下前端知識 2.re

爬蟲筆記1：Python爬蟲常用庫

請求庫：1、urllib：urllib庫是Python3自帶的庫（Python2有urllib和urllib2，到了Python3統一為urllib），這個庫是爬蟲裡最簡單的庫。2、requests：requests屬於第三方庫，使用起來比urllib要簡單不少，且功能更加強大，是最常用的請求庫。3、S

python爬蟲學習筆記1：requests庫及robots協議

The Website is the API requests庫 requests庫的7個主要方法 requests.request 構造一個請求 requests.request(method,url,[**kwarges]) me

Python爬蟲從入門到進階(2)之urllib庫的使用

windows 6.0 賬號高級 manager cname 4.5 clr python爬蟲 1.什麽是Urllib(官網地址：https://docs.python.org/3/library/urllib.html#module-urllib) Urllib是pyt

YII框架分析筆記2：組件和事件行為管理

reac 設置有變相關 article class ces col cal Yii是一個基於組件、用於開發大型 Web 應用的高性能 PHP 框架。CComponent幾乎是所有類的基類，它控制著組件與事件的管理，其方法與屬性如下，私有變量$_e數據存放事件(evnet

python學習筆記2：字符串

nbsp 大小 alpha .com format 大小寫 fin 判斷大小 key python學習筆記2：字符串總結：字符串是不可變變量，不能通過下標修改其值　　　字符串的方法都不會改變字符串原來的值，而是新生成一個字符串一、3種寫法——單引號，雙引號，三引號　

Git學習筆記2——Git版本庫的創建

文件添加不但提交 linu 記錄例子 blog 所有 out 創建一個版本庫非常簡單，首先，選擇一個合適的地方，創建一個空目錄： $ cd s: $ cd Git_Learing $ pwd s/Git_Learning pwd命令用於顯示當前目錄。在我的wind

設計模式筆記2：策略模式

把他客戶端 mage 調用 ges view 優惠軟件代碼 1.1 需求　　設計一個商場打折計費的軟件，可以實現打折，滿300送100等優惠功能。 1.2 類圖　　 1.3　　實現　　我們先把4個計算的類寫出來。 View Code 　　在寫負責

ESP8266學習筆記2：實現ESP8266的局域網內通信

pro reg sad net nts 理解模式 curl ont 上一篇熟悉了編譯下載操作。如今就以實例入手。project使用的是IOT_DEMO，據DEMO文檔能夠知道ESP8266初始工作模式為softAP+station共存的模式。於是這邊我們就先以soft

Python爬蟲入門三之Urllib庫的基本使用

res 瀏覽器中必須答案文件的網頁 one .com 屏幕截圖 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、CSS

《Flask web開發》筆記2：模板---繼承、bootstrap

only world use 可能 clas 似的 () 目前 div 前言：今天重新梳理了一下前端方面的知識，發現學習東西還是要用，不然忘得快，廢話不多說，開始！！一.模板繼承 1.概念：書上說，模板繼承，類似Python上的繼承；其實個人覺得和所有繼承

爬蟲筆記2：urllib庫的使用

相關推薦