爬蟲--urllib模組

阿新 • • 發佈：2018-12-03

一.urllib庫

　　概念：urllib是Python自帶的一個用於爬蟲的庫，其主要作用就是可以通過程式碼模擬瀏覽器傳送請求。其常被用到的子模組在Python3中的為urllib.request和urllib.parse，在Python2中是urllib和urllib2。

使用流程：

指定url
基於urllib的request子模組發起請求
獲取響應中的資料值
持久化儲存

爬取搜狗首頁的頁面資料

---

# 爬取搜狗首頁的頁面資料
import urllib.request
# 1.指定url
url = ' 
https://www.sogou.com/'

#2.發起請求：urlopean可以根據指定的url發起請求，且返回一個響應物件
response = urllib.request.urlopen(url=url)

#3.獲取頁面資料：read函式返回的就是響應物件中儲存的頁面資料(byte)-二進位制形式
page_text = response.read()
#print(page_text)

#4.持久化儲存
with open('./sogou.html','wb')as f:
    f.write(page_text)
    print('寫入資料成功')

補充說明：

urlopen函式原型：
    urllib.request.urlopen(url, data=None, timeout=<object object at 0x10af327d0>, *, cafile=None, capath=None, cadefault=False, context=None)

在上述案例中我們只使用了該函式中的第一個引數url。在日常開發中，我們能用的只有url和data這兩個引數。

url引數：指定向哪個url發起請求
data引數：可以將post請求中攜帶的引數封裝成字典的形式傳遞給該引數（暫時不需要理解，後期會講）

urlopen函式返回的響應物件，相關函式呼叫介紹：
response.headers()：獲取響應頭資訊
response.getcode()：獲取響應狀態碼
response.geturl()：獲取請求的url
response.read()：獲取響應中的資料值（位元組型別）

爬取指定詞條所對應的頁面資料

# 需求：爬取指定詞條所對應的頁面資料
import urllib.request
import urllib.parse

#指定url
url = 'https://www.sogou.com/web?query='

# url特性：url不可以存在非ASCII編碼的字元
word = urllib.parse.quote('人名幣')
url += word

# 發請求
response = urllib.request.urlopen(url=url)

# 獲取頁面資料
page_text=response.read()
# print(page_text)

#4.持久化儲存
with open('rmb.html','wb')as f:
    f.write(page_text)
    print('寫入資料成功')

雙擊rmb.html出現頁面：

- 反爬機制：

網站檢查請求的UA，如果發現UA是爬蟲程式，則拒絕提供網站資料
- User-Agent(UA)：請求載體的身份標識
- 反反爬機制：偽裝爬蟲程式請求的UA--如何通過程式碼實現

在百度瀏覽器下點選F12

然後輸入www.sogou.com

------------------------

import urllib.request
#被訪問的搜狗網頁
url = 'https://www.sogou.com/'
# UA偽裝
#1.自制定一個請求物件
#儲存任意的請求頭資訊
# 此處用的百度的UA
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
#該請求物件的UA進行了成功的偽裝
request = urllib.request.Request(url=url,headers=headers)

# 2.針對自定製的請求發起請求
response = urllib.request.urlopen(request)
print(response.read())

爬蟲--urllib模組

一.urllib庫　　概念：urllib是Python自帶的一個用於爬蟲的庫，其主要作用就是可以通過程式碼模擬瀏覽器傳送請求。其常被用到的子模組在Python3中的為urllib.request和urllib.parse，在Python2中是urllib和urllib2。 &

Python 爬蟲 urllib模組：get方式

本程式以爬取百度首頁為例格式：匯入urllib.request 開啟爬取的網頁: response = urllib.request.urlopen('網址') 讀取網頁程式碼: html = response.read() 列印:

Python 爬蟲 urllib模組：post方式

本程式以爬取 'http://httpbin.org/post' 為例格式：匯入urllib.request 匯入urllib.parse 資料編碼處理，再設為utf-8編碼: bytes(urllib.parse.urlenco

爬蟲-urllib模組

一.urllib庫　　urllib是Python自帶的一個用於爬蟲的庫，其主要作用就是可以通過程式碼模擬瀏覽器傳送請求。其常被用到的子模組在Python3中的為urllib.request和urllib.parse，在Python2中是urllib和urllib2。二.由易到難的爬蟲程式：　　1.

爬蟲-urllib模組的使用

urllib是Python中請求url連線的官方標準庫，在Python3中將Python2中的urllib和urllib2整合成了urllib。urllib中一共有四個模組，分別如下： request：主要負責構造和發起網路請求,定義了適用於在各種複雜情況下開啟 URL (主要為 HTTP) 的函式和類 e

python爬蟲系列(1.2-urllib模組中request 常用方法)

一、request.Request方法的使用上一章節中介紹了request.urlopen()的使用,僅僅的很簡單的使用,不能設定請求頭及cookie的東西,request.Request()方法就是進一步的包裝請求. 1、原始碼檢視引數 class Request: &nb

python爬蟲系列(4.5-使用urllib模組方式下載圖片)

一、回顧urllib包中下載圖片的方式 1、urlretrieve下載檔案 from urllib import request if __name__ == "__main__": # 下載整個網頁

[Python3填坑之旅]1、urllib模組網頁爬蟲訪問中文網址出錯

正在學習網頁爬蟲，用的Python3+urllib模組，當遇到連結裡有中文字元的時候總是報錯。之前以為是Python編碼的問題，不斷去嘗試不同的編碼去encode與decode，可以問題總是解決不了，沒有辦法繼續查閱資料，最後發現其實解決方法特別簡單。問題描述當我訪問帶有中文

python爬蟲系列(1.1-urllib模組常用方法的介紹)

一、關於urllib中常用方法的介紹 1、urlopen網路請求 urlopen方法是網路請求的方法,預設是get請求,如果傳遞了data是post請求 from urllib import r

Python爬蟲入門：使用urllib模組獲取請求頁面資訊

　　歡迎來到拖更王的小部落格，天天想著要把學習和工作中遇到的內容釋出到空間，但是因為忙總是忘（這個藉口真好）。以後還應該會堅持什麼時候想起來什麼時候更新的好習慣吧。　　今天說一下python爬蟲中一個常用的模組urllib，urllib和requests一樣都是用來發起頁面請求進行獲取頁面資訊

Python3爬蟲實戰（urllib模組）

import urllib.request import os import re import time def url_open(url): # 建立一個 Request物件 req req = urllib.request.Request(url) # 通過 add_head

爬蟲urllib庫parse模組API詳解二

一 urlunparse() 1 程式碼 #它接受的引數是一個可迭代物件，但是它的長度必須是6，否則會丟擲引數數量不足或者過多的問題。 from urllib.parse import urlunparse data = ['http', 'www.baidu.com', '

爬蟲urllib庫parse模組的urlparse詳解

一點睛 urllib庫裡還提供了parse這個模組，它定義了處理URL的標準介面，例如實現URL各部分的抽取、合併以及連結轉換。它支援如下協議的URL處理：file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、p

【Pyhton網路爬蟲】網路請求使用的urllib模組

python的簡單，讓我很是喜歡。所以在練習爬蟲和介面測試的時候，使用python來幫助進行網路請求。 Python2.x中會使用的標準庫有urllib、urllib2； Python3.x中使用

爬蟲-urllib-urlopen

log blog etc class body adl div 狀態碼 url 初學爬蟲，整理一些相關知識，方便查詢 1、urlopen 語法： resp = request.urlopen(url) #讀取所有內容 resp.read() #讀取指定n個內容 resp.r

python 爬蟲urllib基礎示例

urllib 爬蟲基礎環境使用python3.5.2 urllib3-1.22 下載安裝wget https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tgztar -zxf Python-3.5.2.tgzcd Python-3.5.2/./

Python爬蟲-urllib的基本用法

quest resp lan roc 用法 rom handler baidu github from urllib import response,request,parse,error from http import cookiejar if __name__

python爬蟲 urllib庫基本使用

afa 識別 urllib spa response aid gen odin pos 以下內容均為python3.6.*代碼學習爬蟲，首先有學會使用urllib庫，這個庫可以方便的使我們解析網頁的內容，本篇講一下它的基本用法解析網頁 #導入urllib from u

python爬蟲urllib庫使用

urllib包括以下四個模組：　　1.request:基本的HTTP請求模組，可以用來模擬傳送請求。就像在瀏覽器裡輸入網址然後回車一樣，只需要給庫方法傳入URL以及額外的引數，就可以模擬實現這個過程。　　2.error：異常處理模組　　3.parse：提供了許多URL處理方法，如拆分、解析、合併等

DEVOPS03 - HTTP協議與urllib模組、paramiko模組

一、HTTP客戶端 1.1 全球資訊網與HTTP 1.1.1 HTTP概述超文字傳輸協議(HTTP,HyperText TransferProtocol)是網際網路上應用最為廣泛的一種網路協議 1.1.2 HTTP訊息詳解 1.http的請求部分 1.1 基本結構

爬蟲--urllib模組

一.urllib庫

爬取搜狗首頁的頁面資料

補充說明：

爬取指定詞條所對應的頁面資料

- 反爬機制：

相關推薦