python3 urllib基本使用

阿新 • • 發佈：2018-12-26

在python中，urllib是請求url連線的標準庫，在python2中，分別有urllib和urllib，在python3中，整合成了一個，稱謂urllib

　urllib.request

　　request主要負責構建和發起網路請求

　　1）GET請求（不帶引數）

　　　　response = urllib.request.urlopen(url,data=None, [timeout, ]*)

　　　　返回的response是一個http.client.HTTPResponse object

　　　　response操作：

　　　　　　a) response.info() 可以檢視響應物件的頭資訊,返回的是http.client.HTTPMessage object

　　　　　　b) getheaders() 也可以返回一個list列表頭資訊

　　　　　　c) response可以通過read(), readline(), readlines()讀取，但是獲得的資料是二進位制的所以還需要decode將其轉化為字串格式。

　　　　　　d) getCode() 檢視請求狀態碼

　　　　　　e) geturl() 獲得請求的url

　　　　>>>>>>>

　　2）GET請求（帶引數）

　　　　需要用到urllib下面的parse模組的urlencode方法

　　　　param = {"param1":"hello", "param2":"world"}

　　　　param = urllib.parse.urlencode(param)　　　　# 得到的結果為：param2=world&param1=hello

　　　　url = "?".join([url, param])　　# http://httpbin.org/ip?param1=hello&param2=world

　　　　response = urllib.request.urlopen(url)

　　3）POST請求：

　　　　urllib.request.urlopen()預設是get請求，但是當data引數不為空時，則會發起post請求

　　　　傳遞的data需要是bytes格式

　　　　設定timeout引數，如果請求超出我們設定的timeout時間，會跑出timeout error 異常。

　　　　param = {"param1":"hello", "param2":"world"}

　　　　param = urllib.parse.urlencode(param).encode("utf8") # 引數必須要是bytes

　　　　response = urllib.request.urlopen(url, data=param, timeout=10)

　　4）新增headers

　　　　通過urllib發起的請求，會有一個預設的header：Python-urllib/version，指明請求是由urllib發出的，所以遇到一些驗證user-agent的網站時，我們需要偽造我們的headers

　　　　偽造headers，需要用到urllib.request.Request物件

　　　　headers = {"user-agent:"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}

　　　　req = urllib.request.Request(url, headers=headers)

　　　　resp = urllib.request.urlopen(req)

　　　　對於爬蟲來說，如果一直使用同一個ip同一個user-agent去爬一個網站的話，可能會被禁用，所以我們還可以用使用者代理池，迴圈使用不同的user-agent

　　　　原理：將各個瀏覽器的user-agent做成一個列表，然後每次爬取的時候，隨機選擇一個代理去訪問

　　　　uapool = ["谷歌代理", 'IE代理', '火狐代理',...]

　　　　curua = random.choice(uapool)

　　　　headers = {"user-agent": curua}

　　　　req = urllib.request.Request(url, headers=headers)

　　　　resp = urllib.request.urlopen(req)

　　5）新增cookie

　　　　為了在請求的時候，帶上cookie資訊，需要構造一個opener

　　　　需要用到http下面的cookiejar模組

　　　　from http import cookiejar

　　　　from urllib import request

　　　　a) 建立一個cookiejar物件

　　　　　　cookie = cookiejar.CookieJar()

　　　　b) 使用HTTPCookieProcessor建立cookie處理器

　　　　　　cookies = request.HTTPCookieProcessor(cookie)

　　　　c) 以cookies處理器為引數建立opener物件

　　　　　　opener = request.build_opener(cookies)

　　　　d) 使用這個opener來發起請求

　　　　　　resp = opener.open(url)

　　　　e) 使用opener還可以將其設定成全域性的，則再使用urllib.request.urlopen發起的請求，都會帶上這個cookie

　　　　　　request.build_opener(opener)

　　　　　　request.urlopen(url)

　　6）IP代理

　　　　使用爬蟲來爬取資料的時候，常常需要隱藏我們真實的ip地址，這時候需要使用代理來完成

　　　　IP代理可以使用西刺（免費的，但是很多無效），大象代理（收費）等

　　　　代理池的構建可以寫固定ip地址，也可以使用url介面獲取ip地址

　　　　固定ip：

　　　　　　from urllib import request

　　　　　　import random

　　　　　　ippools = ["36.80.114.127:8080","122.114.122.212:9999","186.226.178.32:53281"]

　　　　　　def ip(ippools):

　　　　　　　　cur_ip = random.choice(ippools)

　　　　　　　　# 建立代理處理程式物件

　　　　　　　　proxy = request.ProxyHandler({"http":cur_ip})

　　　　　　　　# 構建代理

　　　　　　　　opener = request.build_opener(proxy, request.HttpHandler)

　　　　　　　　# 全域性安裝

　　　　　　　　request.install_opener(opener)

　　　　　　for i in range(5):

　　　　　　　　try:

　　　　　　　　　　ip(ippools)

　　　　　　　　　　cur_url = "http://www.baidu.com"

　　　　　　　　　　resp = request.urlopen(cur_url).read().decode("utf8")

　　　　　　　　excep Exception as e:

　　　　　　　　　　print(e)

　　　　使用介面構建IP代理池（這裡是以大象代理為例）

　　　　　　def api():

　　　　　　　　all=urllib.request.urlopen("http://tvp.daxiangdaili.com/ip/?tid=訂單號&num=獲取數量&foreign=only")

　　　　　　　　ippools = []

　　　　　　　　for item in all:

　　　　　　　　　　ippools.append(item.decode("utf8"))

　　　　　　　　return ippools

　　　　　　其他的和上面使用方式類似

　　7）爬取資料並儲存到本地 urllib.request.urlretrieve()

　　　　如我們經常會需要爬取一些檔案或者圖片或者音訊等，儲存到本地

　　　　urllib.request.urlretrieve(url, filename)

　　8）urllib的parse模組

　　　　前面第2）中，我們用到了urllib.parse.urlencode()來編碼我們的url

　　　　a）urllib.parse.quote()

　　　　　　這個多用於特殊字元的編碼，如我們url中需要按關鍵字進行查詢，傳遞keyword='詩經'

　　　　　　url是隻能包含ASCII字元的，特殊字元及中文等都需要先編碼在請求

　　　　　　要解碼的話，使用unquote

　　　　b）urllib.parse.urlencode()

　　　　　　這個通常用於多個引數時，幫我們將引數拼接起來並編譯，向上面我們使用的一樣

　　9）urllib.error

　　　　urllib中主要兩個異常，HTTPError，URLError，HTTPError是URLError的子類

　　　　HTTPError包括三個屬性：

　　　　　　code：請求狀態碼

　　　　　　reason：錯誤原因

　　　　　　headers：請求報頭

python3 urllib基本使用

在python中，urllib是請求url連線的標準庫，在python2中，分別有urllib和urllib，在python3中，整合成了一個，稱謂urllib 　urllib.request 　　request主要負責構建和發起網路請求　　1）GET請求（不帶引數）　　　　response =&

Python3 Urllib庫的基本使用

一、什麼是Urllib 　　Urllib庫是Python自帶的一個http請求庫，包含以下幾個模組： urllib.request　　　　請求模組 urllib.error　　　　異常處理模組 urllib.parse　　　　 url解析

Python3 urllib.request庫的基本使用

connect 相關一個用戶裏的 .... conn post請求 i686 就是 urllib.request庫是 Python3 自帶的模塊(不需要下載，導入即可使用)python 自帶的模塊庫文件都是在C:\Python\Lib目錄下（C:\Python是我Py

爬蟲小探-Python3 urllib.request獲取頁面數據

text height urlopen -s mozilla 使用 pri 爬蟲 size 使用Python3 urllib.request中的Requests()和urlopen()方法獲取頁面源碼，並用re正則進行正則匹配查找需要的數據。 #forex.py#co

python3 urllib.requesturlopen 一個https 時ssl證書錯誤!

使用就會 cert http ssl req pen urllib erro 不知道從那個版本起，python用urlopen打開一個https時會驗證一次 SSL 證書，當目標使用的是自簽名的證書時就會爆出一個 <urlopen error [SSL: CERT

python3 urllib的用法

caf utf 語言 try all cti webkit com ret 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=Fal

python3 urllib爬蟲，你只需要看這一篇就夠了

寫在最前面：以下資料均脫敏 from urllib import request import requests import urllib if __name__ == "__main__": # 介面的url session_requests = requests.se

Python3 urllib使用

Python3 urllib使用基本使用 get,post,timeout超時,異常 # 姓名: 劉帥 # 日期: 2018.11.18 # 功能: urllib.request.urlopen使用方法 from urllib.request import urlopen # 請

python3 urllib 詳解

本文主要講解 Python 3 中的 urllib 庫的用法。urllib 是 Python 標準庫中用於網路請求的庫。該庫有四個模組，分別是urllib.request，urllib.error，urllib.parse，urllib.robotparser。其中urllib.request，ur

Python3 urllib.parse 常用函數示例

獲取url uil quest search %x sea xxxxx 為什麽 pat Python3 urllib.parse 常用函數示例 http://blog.51cto.com/walkerqt/1766670 1、獲取url參數。 >>&

Python3 urllib.parse 常用函式示例

Python3 urllib.parse 常用函式示例 http://blog.51cto.com/walkerqt/1766670 1、獲取url引數。 >>> from urllib import parse >&g

python3 urllib和requests模組

urllib模組是python自帶的，直接呼叫就好，用法如下： 1 #處理get請求，不傳data，則為get請求 2 import urllib 3 from urllib.request import urlopen 4 from urllib.parse

python3 urllib.request.Request的用法

import urllib.request import urllib.parse url = 'http://127.0.0.1:8000/api/login/' headers = {'User-

python3 urllib爬蟲抓取記錄

# 目的：GET請求抓取csdn部落格頁面所有文章標題，並儲存在csdn目錄下 import re import os from urllib import request #抓取整個頁面下來 data=request.urlopen('http://blog.csdn.net/a51

Python3 Urllib庫

一.什麼是Urllib庫 urllib是python標準庫，就是你安裝了python，這兩個庫就已經可以直接使用了；它包括以下模組：urllib.request 請求模組 urllib.error 異常處理模組 urllib.parse url解析模組 urllib.robotparser r

Python3 urllib庫和requests庫

1. Python3 使用urllib庫請求網路 1.1 基於urllib庫的GET請求請求百度首頁www.baidu.com ，不新增請求頭資訊： 1 import urllib.requests 2 3 4 def get_page(): 5　　

Python3 urllib庫學習

python3將python2的urllib和urllib2庫整合為一個urllib庫，由於近期用到了這個庫就參考官方文件和網上的資料總結了一下匯入 import urllib urllib.request urllib.reque

Python3的基本語法學習（一）

一、Python的基本資料型別 python簡化了資料型別。整數：int （其他語言：單精度（float），雙精度（double））浮點數：float （其他語言：short，int，long） tips:1.可以

python3 urllib包與http包的使用

urllib包和http包都是面向HTTP協議的。其中urllib主要用於處理 URL，使用urllib操作URL可以像使用和開啟本地檔案一樣地操作。而 http包則實現了對 HTTP協議的封裝，是urllib.request模組的底層。 1.urllib包簡介 2. h

【Python3】基本資料型別

Python3 基本資料型別 Python 中的變數不需要宣告。每個變數在使用前都必須賦值，變數賦值以後該變數才會被建立。在 Python 中，變數就是變數，它沒有型別，我們所說的"型別"是變數所指的記憶體中物件的型別。等號（=）用來給變數賦值。等號（=）運算子左邊是一個

python3 urllib基本使用

相關推薦