Python-爬蟲03：urllib.request模組的使用

阿新 • • 發佈：2019-01-04

1. urllib.request的基本使用
2. User-Ageng的使用-模擬瀏覽器傳送請求

1. urllib.request的基本使用

所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中抓取出來。在Python中有很多庫可以用來抓取網頁，我們先學習urllib.request。

Python模組原始碼： C:\Users\haoch\Anaconda3\Lib

urllib.request原始碼:C:\Users\haoch\Anaconda3\Lib\urllib\request.py

1.1 urlopen

我們先來看原始碼

# data沒寫-> get請求，否則是Post請求 
def urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,
            *, cafile=None, capath=None, cadefault=False, context=None):

    global _opener
    if cafile or capath or cadefault:
        import warnings
        warnings.warn("cafile, cpath and cadefault are deprecated, use a "
                      "custom context instead.", DeprecationWarning, 2)
        if context is not None:
            raise ValueError(
                "You can't pass both context and any of cafile, capath, and "
                "cadefault"
            )
        if not _have_ssl:
            raise ValueError('SSL support not available')
            # 知識點1： 做SSL認證
        context = ssl.create_default_context(ssl.Purpose.SERVER_AUTH,
                                             cafile=cafile,
                                             capath=capath)
        # 知識點2： 通過HTTPS處理器建立處理器物件                                  
        https_handler = HTTPSHandler(context=context)
        # 知識點3： 將處理器物件包進去
        opener = build_opener(https_handler)
    elif context:
        https_handler = HTTPSHandler(context=context)
        opener = build_opener(https_handler)
    elif _opener is None:
        _opener = opener = build_opener()
    else:
        opener = _opener
        # 知識點4： 自定義的open方法
    return opener.open(url, data, timeout)

1.2. 用urlopen來獲取網路原始碼

# 匯入urllib2 庫
import urllib.request
# 向指定的url傳送請求，並返回伺服器響應的類檔案物件
response = urllib.request.urlopen("http://www.baidu.com/")
# 類檔案物件支援 檔案物件的操作方法，如read()方法讀取檔案全部內容，返回字串
html = response.read()
print(html)

實際上，如果我們在瀏覽器上開啟百度主頁，右鍵選擇“檢視原始碼”，你會發現，跟我們剛才打印出來的是一模一樣。也就是說，上面的4行程式碼就已經幫我們把百度的首頁的全部程式碼爬了下來。

1.3. urllib.request.Request的使用

如果需要執行更復雜的操作，比如增加HTTP報頭，必須建立一個 Request 例項來作為urlopen()的引數；而需要訪問的url地址則作為 Request 例項的引數。

import urllib.request
# url 作為Request()方法的引數，構造並返回一個Request物件
request = urllib.request.Request("http://www.baidu.com")
# Request物件作為urlopen()方法的引數，傳送給伺服器並接收響應
response = urllib.request.urlopen(request)
html = response.read()
print html

不加user-agent-請求資訊

GET http://www.baidu.com/ HTTP/1.1
Accept-Encoding: identity
Host: www.baidu.com
User-Agent: Python-urllib/3.7
Connection: close

2. User-Ageng的使用-模擬瀏覽器傳送請求

上面的例子中有一個最大缺點是不能給請求新增head，不能更改User-Agent的預設值，那麼urlopen中User-Agent的值是什麼呢，讓我們來看原始碼

class OpenerDirector:
    def __init__(self):
       # __version__ = '%d.%d' % sys.version_info[:2]--->sys.version[:3] = 3.7
        client_version = "Python-urllib/%s" % __version__
        # client_version = Python-urllib 3.7
        self.addheaders = [('User-agent', client_version)]
        # self.handlers is retained only for backward compatibility
        self.handlers = []
        # manage the individual handlers
        self.handle_open = {}
        self.handle_error = {}
        self.process_response = {}
        self.process_request = {}

urllib2預設的 User-Agent:Python-urllib 3.7，被管理員看到後，容易被封IP，應該重構我們的User-Agent

2.1) 為什麼要用User-Agent?

我們用一個合法的身份去請求別人網站，顯然人家就是歡迎的，所以我們就應該給我們的這個程式碼加上一個身份，就是所謂的User-Agent頭。

瀏覽器就是網際網路世界上公認被允許的身份，如果我們希望我們的爬蟲程式更像一個真實使用者，那我們第一步就是需要偽裝成一個被瀏覽器。用不同的瀏覽器在傳送請求的時候，會有不同的 User-Agent 報頭。
urllib.request預設的User-Agent頭為：Python-urllib/x.y （x和y 是Python 主.次版本號，例如 Python-urllib/3.7）

2.2) 如何新增User-Agent資訊到請求中去？

首先我們用抓包工具抓取請求，在其中獲取User-Agent的值

GET https://www.baidu.com/ HTTP/1.1
Host: www.baidu.com
Connection: keep-alive
Pragma: no-cache
Cache-Control: no-cache
Upgrade-Insecure-Requests: 1

# User-Agent 最重要的東西，必須寫的東西
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36

# 獲取的資料型別
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
# 壓縮方式（一定不能寫的，麻煩）
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7,en-CA;q=0.6
Cookie: BAIDUID=4F583A04A0193EBE0C9849C551B9305C:FG=1; BIDUPSID=4F583A04A0193EBE0C9849C551B9305C; PSTM=1545978093; BD_UPN=12314753; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; __cfduid=d7aafabcd6ccc970c2d47e9e205fc3c851546334654; cflag=13%3A3; delPer=0; BD_HOME=0; H_PS_PSSID=1440_21082_28205_28132_27245_27509
x-hd-token: rent-your-own-vps

我們只需要複製User-Agent的值即可，程式碼如下：

# IE 9.0 的 User-Agent，包含在 user_agent裡
ua_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}
#  url 連同 headers，一起構造Request請求，這個請求將附帶 IE9.0 瀏覽器的User-Agent
request = urllib.request.Request("http://www.baidu.com", headers = ua_headers)
# 向伺服器傳送這個請求
response = urllib.request.urlopen(request)
html = response.read()
html

加user-agent-請求資訊

GET http://www.baidu.com/ HTTP/1.1
Accept-Encoding: identity
Host: www.baidu.com
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36
Connection: close

新增一個特定的header

import urllib2

url = "http://www.itcast.cn"
#IE 9.0 的 User-Agent
user_agent = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"} 
request = urllib2.Request(url, headers = user_agent)
#也可以通過呼叫Request.add_header() 新增/修改一個特定的header
request.add_header("Connection", "keep-alive")
# 也可以通過呼叫Request.get_header()來檢視header資訊
# request.get_header(header_name="Connection")
response = urllib2.urlopen(request)
print response.code     #可以檢視響應狀態碼
html = response.read()
print html

隨機新增/修改User-Agent

import urllib2
import random

url = "http://www.itcast.cn"

ua_list = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6"
]

user_agent = random.choice(ua_list)
request = urllib2.Request(url)
#也可以通過呼叫Request.add_header() 新增/修改一個特定的header
request.add_header("User-Agent", user_agent)
# get_header()的字串引數，第一個字母大寫，後面的全部小寫
request.get_header("User-agent")
response = urllib2.urlopen(request)
html = response.read()
print html

1.5. Response的其他用法

response.read()     # 讀取爬取的內容
response.getcode()  # 返回HTTP的響應碼，                       200=OK
response.geturl()   # 返回資料的是具體哪個URL， 防止重定向      'http://www.baidu.com'
response.info()     # 返回伺服器響應的抱頭資訊

Python-爬蟲03：urllib.request模組的使用

目錄 1. urllib.request的基本使用 1.1 urlopen 1.2. 用urlopen來獲取網路原始碼 1.3. urllib.request.Request的使用 2. User-Ageng的使用-模擬瀏覽器傳送請求 2.1)

Python爬蟲入門：Urllib庫的基本使用

logs 模擬第一個 tps 出了訪問方式 post方式 %d 一段 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、

【Python爬蟲】使用urllib.request下載已知連結的網路資源

如果有這樣一個場景，我們的EXCEL某一列記錄了好多（圖片、視訊、音訊）連結A，另外一列記錄了連結名稱B，現在我們想要自動下載這些連結的檔案，我們應該怎樣處理？ 1.迴圈去excel取值,將A和B存入到一個二維列表中 2.根據連結字尾不同情況（.jpg,.mp4,mp3等）用urllib.req

Python環境搭建以及urllib request模組使用

問題引入：也是剛接觸python，然後就就在python官網上下載了python2.7版本，但是在使用urllib request模組時一直報錯，後來解決辦法是將python升級到最新版本就可以使用，python3中自帶urllib request模組。 request模組使用： # cod

Python爬蟲入門：使用urllib模組獲取請求頁面資訊

　　歡迎來到拖更王的小部落格，天天想著要把學習和工作中遇到的內容釋出到空間，但是因為忙總是忘（這個藉口真好）。以後還應該會堅持什麼時候想起來什麼時候更新的好習慣吧。　　今天說一下python爬蟲中一個常用的模組urllib，urllib和requests一樣都是用來發起頁面請求進行獲取頁面資訊

python 爬蟲訪問網頁之request與requests：

標籤（空格分隔）： 9.23 一、訪問獲取網頁的基本方法：準備頭部和代理 user_agent = [ #準備頭部，列表 "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) Apple

Python中的urllib.request模組

因為在玩Python challenge的時候，有用過這個模組，而且學習這個模組之後也對系統學習網路爬蟲有用。當時查了各種資料學習，沒有碰官網文件（因為還是對英語有抗拒性），但是還是官方的文件最具權威和學習價值，因此想要此次翻譯官方文件的同時，鍛鍊自己的英語能力，也對ur

Python常用庫urllib中urllib.request模組使用詳解

1.urllib2和urllib庫的區別 Urllib庫是Python中的一個功能強大、用於操作URL，並在做爬蟲的時候經常要用到的庫。在Python2.x中，分為Urllib庫和Urllin2庫，P

用Python第一個爬蟲程式（urllib.request)

這是博主第一個小爬蟲程式，紀念一下 2018/09/20 之前在ubuntu裡面已經實現，不過今天開始使用pycharm，折騰了一上午…終於打出來了。話不多說… 目標：爬取博主一篇博文(Path of Python – 爬蟲)裡面的遊覽數。 import r

Crawler/ML：爬蟲技術(基於urllib.request庫從網頁獲取圖片)+HierarchicalClustering層次聚類演算法，實現自動從網頁獲取圖片然後根據圖片色調自動分類

網上教程太囉嗦，本人最討厭一大堆沒用的廢話，直接上，就是幹！網路爬蟲？非監督學習？只有兩步，只有兩個步驟？ Are you kidding me？ Are you ok? 來吧，follow me, come on! 一、爬蟲下載圖片第一步：首先，我們從網

Python系列之 - 怎麼用urllib.request模組下載hao123html主頁

Python系列之 - 怎麼用urllib.request模組下載hao123html主頁下載hao123 html主頁程式碼片段如下： import urllib.request def getHtml(url): html = urllib.request.

Python爬蟲利器：BeautifulSoup庫

環境內容 python網絡 tag ret bsp 標準 requests for Beautiful Soup parses anything you give it, and does the tree traversal stuff for you. Beautif

Python爬蟲利器：Beautiful Soup

處理 previous tag 得到 navi log 簡單文本節點 pen Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫。使用它來處理HTML頁面就像JavaScript代碼操作HTML DOM樹一樣方便。官方中文文檔地址 1

Python爬蟲通過替換http request header來欺騙瀏覽器實現登錄

kit 5.0 目的 user ima blog 界面 chrom num 以豆瓣為例，訪問https://www.douban.com/contacts/list 來查看自己關註的人，要登錄才能查看。如果用requests.get()方法獲取這個http，沒登錄只能

Python爬蟲系列：判斷目標網頁編碼的幾種方法

qpi data- tps 分享運行 ofo html nbsp 來看在爬取網頁內容時，了解目標網站所用編碼是非常重要的，本文介紹幾種常用的方法，並使用幾個網站進行簡單測試。代碼運行結果：從不同國家的幾個網站測試結果來看，utf8使用的較多（對於純英文網站，用什

Python 爬蟲系列：糗事百科最熱段子

image .get headers BE write findall parse 調用 with open 1.獲取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2頁 2.分析頁面，找到段子部分的位置，

精通Python爬蟲-03-狩獵大師

效率 child 機器 virtual 做成昨天 comm 彈出 bs4 聲明：本系列文章原創於慕課網，作者秋名山車神，任何人不得以任何形式在不經作者允許的情況下，進行任何形式的印刷以及銷售，轉載需註明出處及此聲明。本系列文章更新至少每周一更，將涉及Python爬蟲

Python爬蟲案例：利用Python爬取笑話網

htm 分享 targe pen 技術分享搞笑 lan tle import 學校的服務器可以上外網了，所以打算寫一個自動爬取笑話並發到bbs的東西，從網上搜了一個笑話網站，感覺大部分還不太冷，html結構如下：可以看到，笑話的鏈接列表都在<div cla

python爬蟲學習：第一爬_快眼看書排行榜

font n) 對象 file 叠代器 get quest client 有一個 1 import json 2 import re 3 from urllib.request import urlopen # urllib用法：https://www.jb5

python爬蟲實戰：利用scrapy，短短50行代碼下載整站短視頻

start mongodb efi 本地 rtp 公司 loader 右鍵 more 近日，有朋友向我求助一件小事兒，他在一個短視頻app上看到一個好玩兒的段子，想下載下來，可死活找不到下載的方法。這忙我得幫，少不得就抓包分析了一下這個app，找到了視頻的下載鏈接，幫他解決

Python-爬蟲03：urllib.request模組的使用

1. urllib.request的基本使用

1.1 urlopen

1.2. 用urlopen來獲取網路原始碼

1.3. urllib.request.Request的使用

2. User-Ageng的使用-模擬瀏覽器傳送請求

2.1) 為什麼要用User-Agent?

2.2) 如何新增User-Agent資訊到請求中去？

2.3) 新增更多的User-Ageng和Header的資訊

1.5. Response的其他用法

相關推薦