Python3之urllib模塊

阿新 • • 發佈：2017-12-07

time fault request 方法 encode 數據格式 5.0 urn imp

簡介

　　urllib是python的一個獲取url(Uniform Resource Locators，統一資源定位符)，可以用來抓取遠程的數據。

常用方法

（1）urlopen

　　urllib.request.urlopen(url, data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)

urllib.request.urlopen() 可以獲取頁面，獲取頁面內容的數據格式為bytes類型，需要進行decode()解碼，轉換成str類型。

參數說明：

url : 需要打開的網址
data : 字典形式，默認為None時是GET方法，data不為空時, urlopen()的提交方式為POST，註意POST提交時，data需要轉換為字節;

timeout : 設置網站訪問的超時時間

from urllib import request
response =  request.urlopen("http://members.3322.org/dyndns/getip")
# <http.client.HTTPResponse object at 0x031F63B0>
page = response.read()
# b‘106.37.169.186\n‘
page = page.decode("utf-8")
# ‘106.37.169.186\n‘

　　urlopen返回對象提供的方法：

read(),readline(),readlines(),fileno(),close() : 對HTTPResponse類型數據進行操作

info() : 返回HTTPMessage對象，表示遠程服務器返回的頭信息
getcode() : 返回HTTP狀態碼，如果是http請求，200請求成功完成，404網頁未找到
geturl(): 返回請求的url

（2）Request

　　urllib.request.Request(url,data=None,headers={},method=None)

from urllib import request

url = r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘
headers = {
    ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
                  r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
    ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
    ‘Connection‘: ‘keep-alive‘
}
req = request.Request(url, headers=headers)
page = request.urlopen(req).read()
page = page.decode(‘utf-8‘)

（3）parse.urlencode

　　urllib.parse.urlencode(query, doseq=False,safe=‘‘,encoding=None,errors=None)

urlencode()的主要作用就是將url附上要提交的數據.

from urllib import request, parse
url = r‘http://www.lagou.com/jobs/positionAjax.json?‘
headers = {
    ‘User-Agent‘: r‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘
                  r‘Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3‘,
    ‘Referer‘: r‘http://www.lagou.com/zhaopin/Python/?labelWords=label‘,
    ‘Connection‘: ‘keep-alive‘
}
data = {
    ‘first‘: ‘true‘,
    ‘pn‘: 1,
    ‘kd‘: ‘Python‘
}
data = parse.urlencode(data).encode(‘utf-8‘)
# 此時data是字節 b‘first=true&pn=1&kd=Python‘ ，POST的數據必須是bytes或者iterable of bytes，不能是str，因此需要encode編碼
# 經過urlencode轉換後的data數據為‘first=true&pn=1&kd=Python‘
# 最後提交的url為：http://www.lagou.com/jobs/positionAjax.json?first=true?pn=1?kd=Python
req = request.Request(url, headers=headers, data=data)
# 此時req : <urllib.request.Request object at 0x02F52A30>
page = request.urlopen(req).read()
# 此時page是字節： b‘{"success":false,"msg":"\xe6\x82\xa8\xe6\x93\x8d\xe4\xbd\x9c\xe5\xa4\xaa\xe9\xa2\x91\xe7\xb9\x81,\xe8\xaf\xb7\xe7\xa8\x8d\xe5\x90\x8e\xe5\x86\x8d\xe8\xae\xbf\xe9\x97\xae","clientIp":"106.37.169.186"}\n
page = page.decode(‘utf-8‘)
# 此時page是字符串："success":false,"msg":"您操作太頻繁,請稍後再訪問","clientIp":"106.37.169.186"}

（4）代理 request.ProxyHandler(proxies=None)

當需要抓取的網站設置了訪問限制，這時就需要用到代理來抓取數據。

from urllib import request, parse
data = {
        ‘first‘: ‘true‘,
        ‘pn‘: 1,
        ‘kd‘: ‘Python‘
    }
proxy = request.ProxyHandler({‘http‘: ‘5.22.195.215:80‘})  # 設置proxy
opener = request.build_opener(proxy)  # 掛載opener
request.install_opener(opener)  # 安裝opener
data = parse.urlencode(data).encode(‘utf-8‘)
page = opener.open(url, data).read()
page = page.decode(‘utf-8‘)
return page

　　文章參考：https://www.cnblogs.com/Lands-ljk/p/5447127.html

Python3之urllib模塊

time fault request 方法 encode 數據格式 5.0 urn imp 簡介　　urllib是python的一個獲取url(Uniform Resource Locators，統一資源定位符)，可以用來抓取遠程的數據。常用方法（1）urlopen

python3之json模塊使用

pen lap none borde with true per top rar 1. json模塊介紹 json是python自帶的操作json的模塊。 python序列化為json時的數據類型轉換關系： python格式 json格式 dict（復

Python3之shutil模塊

ret add body pattern 命名 data logger www lsp 一. 簡介　　shutil 是高級的文件，文件夾，壓縮包處理模塊。二. 使用 shutil.copyfileobj(fsrc, fdst[, length])

python3之paramiko模塊

錯誤輸出模塊介紹 ftpclient print txt finally rom 判斷 lec 1、paramiko模塊介紹 paramiko模塊提供了基於ssh連接，進行遠程登錄服務器執行命令和上傳下載文件的功能。這是一個第三方的軟件包，使用之前需要安裝。 2、pa

python3 之logging模塊

sta ack res fill app either ant odin base logging.getLogger(name=None)Return a logger with the specified name or, if name is None, return

python3 之configparser 模塊

app 所有清空 __name__ 刪除 key range import pri configparser 簡介configparser 是 Pyhton 標準庫中用來解析配置文件的模塊，並且內置方法和字典非常接近[db]db_count = 31 = passwd2

(轉)Python3之shutil模塊

mtr copyfile com archive comm 刪除文件 sta Owner 處理模塊原文：https://www.cnblogs.com/wang-yc/p/5625046.html 一. 簡介　　shutil 是高級的文件，文件夾，壓縮包處理模塊。

python3之threading模塊(中)

區別參數 wait dna 實例線程的狀態 state 100% second 派生線程簡單的示例 1: import threading 2: import logging 3: 4: class Mythread(threading.Thread)

python3之threading模塊(下)

round 調用 format ren %s space 對象線程同步 work 同步線程 threading.Condition()，Condition使用了一個Lock，所以可以綁定一個共享資源，使多個線程等待這個資源的更新再啟動。當然Condition也可以顯示地

python3之datetime模塊

比較 sta etime 類型調用 borde datetime 默認 one 生成時間註意微秒不能是浮點數 1: import datetime 2: t = datetime.time(1, 2, 3, 4) 3: print(t.hour, t.minu

[Python3]HTTP處理 - urllib模塊

color sea 如何使用 code odin publish wiki 行數 search 概述 urllib是python最基礎、最核心的HTTP協議支持庫，諸多第三方庫都依賴urllib，所以urllib是必須掌握的HTTP庫。掌握了urllib有利於：

python3 爬蟲之requests模塊使用總結

swd rom 一個 http 寫入 delet pen req 狀態碼 Requests 是第三方模塊，如果要使用的話需要導入。Requests也可以說是urllib模塊的升級版，使用上更方便。這是使用urllib的例子。 import urllib.request

【轉】Python3學習筆記（urllib模塊的使用）

nal 方法 utf 網址 pin des IE tps erer 原文地址：https://www.cnblogs.com/Lands-ljk/p/5447127.html 1.基本方法 urllib.request.urlopen(url, data=None, [ti

python之-- random模塊

letter == pytho cde spa lose temp let 否則 random模塊random.random()：隨機打印一個小數random.randint(1,10)：隨機打印1-10之間的任意數字（包括1和10）random.randrange(1,1

centos7 安裝python3.6 及模塊安裝演示

更改 group sqli ins 修改 store get pen qlite 目錄：下載python3.6 安裝python3.6的依賴編譯安裝更改鏈接更改yum腳本的python依賴修改gnome-weaktool配置文件修改urlgrabber配置文件

python 之使用模塊

lec keyword 令行 str 運行 arguments pub 刪掉 module Python本身就內置了很多非常有用的模塊，只要安裝完畢，這些模塊就可以立刻使用。我們以內建的sys模塊為例，編寫一個hello的模塊： #!/usr/bin/env python

全局變量 urllib模塊 json模塊

pycharm rtt _file__ info 必須地址老男孩是否一個 1、vars（）查看一個.py文件中的全局變量 print(vars())　　　　　#重點 __name__‘: ‘__main__　 ‘__file__‘: ‘

4Python標準庫系列之sys模塊

maintained provides always access 解釋器 Python標準庫系列之sys模塊This module provides access to some variables used or maintained by the interpreter and to

10Python全棧之路系列之深淺拷貝標準庫系列之datetime模塊

格式轉換字符串 Python標準庫系列之datetime模塊Fast implementation of the datetime type.功能說明datetime.date.today()打印輸出當前的系統日期datetime.date.fromtimestamp(time.time())將時間

3Python標準庫系列之os模塊

system python command creating provides Python標準庫系列之os模塊This module provides a portable way of using operating system dependent functionality. If

Python3之urllib模塊

簡介

常用方法

（1）urlopen

（2）Request

（3）parse.urlencode

（4）代理 request.ProxyHandler(proxies=None)

相關推薦