爬蟲學習——網頁下載器和urllib2模塊

阿新 • • 發佈：2017-07-07

處理器請求 aid none pro 調用 tps jar header

什麽是網頁下載器？

一、網頁下載器是爬蟲的核心組件

技術分享

二、常用的python網頁下載器有urlilib2基礎模塊和requests第三方插件兩種

urllib2支持功能：1.支持直接url下載；2.支持向網頁直接輸入的數據；3.支持需要登陸網頁的cookie處理；4.需要代理訪問的代理處理

三、urllib2的三種下載方法

方法一.直接下載法

技術分享

相應代碼如下：

#-*-coding:utf-8-*-

#調用urllib2模塊
import urllib2 

#直接請求
response=urllib2.urlopen("http://www.baidu.com")

#獲取狀態碼，如果是200表示成功 

print response.getcode()

#讀取爬取得內容
print response.read()

方法2：添加data和http

data：即用戶需要輸入的數據

http-header：主要是為了提交http的頭信息

將url、data、header三個參數傳遞給urllib2的Request類，生成一個request對象，接著再使用urllib2中的urlopen方法，以request作為參數發送網頁請求

相應代碼如下：

 1 #coding=utf-8
 2 import urllib2
 3 
 4 #創建Request對象
 5 request= urllib2.Request(" 
所要爬取的url")
 6 
 7 #添加數據a=1
 8 request.add_data(‘a‘,‘1‘)
 9 
10 #添加http的header
11 request.add_header(‘User-Agent‘,‘Mozilla/5.0‘)
12 
13 #發送請求獲取結果
14 response= urllib2.urlopen(request)
15 
16 print response.getcode()
17 
18 print response.read()

方法二代碼示例

方法三、添加特殊情境的處理器

有些網頁需要登錄才能訪問，需要添加cookie進行處理，這裏使用HTTPCookieProcessor

需代理才能訪問的使用：ProxyHandler

使用https加密協議的網頁：HTTPSHandler

有的url相互自動的跳轉關系：HTTPRedirectHandler

將這些handler傳送給urllib2的build_opener(handler)方法來創建opener對象,在傳送給install_opener(opener),之後urllib2就具有了這些場景的處理能力

技術分享

代碼如下：cookie增強處理

 1  #-*-coding:utf-8-*-
 2 
 3 #引入urllib2和cookielib模塊
 4 import urllib2,cookielib
 5 
 6 #創建cookie容器，來存儲cookie的數據
 7 cj=cookielib.CookieJar()
 8 
 9 #創建一個opener，然後使用urllib2的HTTPCookieProcessor以cj的cookiejar作為參數生成一個handler，再將此handler傳給build_opener方法生成一個opener對象
10 opener = urlib2.build_opener(urllib2.HTTPCookieProcessor(cj))
11 
12 #然後給urllib2安裝opener來增強他的處理器
13 urllib2.install_opener(opener)
14 
15 #使用帶有cookie的urllib2 訪問網頁,實現網頁的爬取
16 response = urllib2.urlopen("http://www.baidu.com")

增強處理

爬蟲學習——網頁下載器和urllib2模塊

處理器請求 aid none pro 調用 tps jar header 什麽是網頁下載器？一、網頁下載器是爬蟲的核心組件二、常用的python網頁下載器有urlilib2基礎模塊和requests第三方插件兩種 urllib2支持功能：1.支持直接url下載；

爬蟲學習——URL管理器和實現方法

可選架構緩存 sql 元素技術分享字段結構想要 url管理器一共有三種實現方法，作為個人，我們應當選擇哪種實現方法呢？答案就在下面爬蟲的簡單架構一、URL管理器實現方式：有三種 1.內存中 python中set()可以直接去除重復的元素 2.關系數據

博客園-後臺管理(富文本編輯器和BS模塊)

pad 沒有 .com print 粘貼將他屬性 turn 不能後臺管理頁面在個人主站頁面中我們設計有管理按鈕，當我們點擊管理按鈕時，應該能進入後臺管理自己的文章(註意：這裏進入的應該是當前登錄人的後臺，而不是該站點的後臺) 首先設計url from bl

爬蟲學習筆記（六）PyQuery模塊

詳情解析學習筆記字符 blank （六）軟件測試 find print PyQuery模塊也是一個解析html的一個模塊，它和Beautiful Soup用起來差不多，它是jquery實現的，和jquery語法差不多，會用jquery的人用起來就比較方便了。 Pyq

[Python] [爬蟲] 5.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——網頁下載器

目錄 1.Intro 2.Source 1.Intro 檔名：pageDownloader.py 模組名：網頁下載器引用庫： selenium random sys socket tim

網頁下載器urllib2例項

1、最簡潔方法 response：直接請求 response.getcode()：獲取狀態碼 response.read()：讀取內容 #coding:utf8 import urllib2 url = "http://www.baidu.com" print '第一種方

Python開發基礎-Day15正則表達式爬蟲應用，configparser模塊和subprocess模塊

表達 port 進行 false popen ext signal -- 默認正則表達式爬蟲應用（校花網） 1 import requests 2 import re 3 import json 4 #定義函數返回網頁的字符串信息 5 def getPage_

Python基礎----正則表達式爬蟲應用，configparser模塊和subprocess模塊

stdin alt 輸入 -h 但是狀態 swd 有效 tle 正則表達式爬蟲應用（校花網） 1 import requests 2 import re 3 import json 4 #定義函數返回網頁的字符串信息 5 def getPage_str(u

python基礎學習叠代器和生成器

ins log 對象 put 是否基礎學習個數下一個運行機制可以直接作用於for循環的數據類型有一下幾種一類是幾何數據類型，如 list , tuple , dict , set ,str 等二類是generator包括生成器和帶yield方法的函數這些可

python基礎學習時間time和datetime模塊

使用負數 orm 本地 amp 元組 format 夏令時字符轉換時間模塊time和datetime()時間表現為三種格式 1.時間戳 2.時間元組 3.格式化字符串(2017-11-1)時間戳：通常來說時間戳表示的是從格林威治1970年1月1日00:00:00

python基礎學習os模塊和sys模塊

操作系統 mkdir getcwd 分割文件元組 lin 重定向 environ bsp os模塊和sys模塊import osos.getcwd() #獲取當前工作目錄os.chdir() #切換目錄os.makedirs() #遞歸創建一個目錄os.removedir

Python學習之路：time和datetime模塊

exists atime shuffle aaa 絕對路徑 ons 平臺文件名可能轉自：http://blog.51cto.com/egon09/1840425 一：內建模塊 time和datetime（http://www.jb51.net/article/49

【python標準庫模塊四】Json模塊和Pickle模塊學習

pre pickle模塊 codes spa 原來 pick 加強 val 文件 Json模塊原來有個eval函數能能夠從字符串中提取出對應的數據類型，比如"{"name":"zhangsan"}"，可以提取出一個字典。json模塊可一樣實現功能，但是更加強大

python學習的第十八天模塊之包、相對搜索路徑和絕對搜索路徑

main 簡單 pre port 頂級 relative 定性超出 text 一、包 1、什麽是包包是一種通過使用‘.模塊名’來組織python模塊名稱空間的方式。具體就是一個包含有__init__.py文件的文件夾，所以其實我們創建包的目的就是為了用文件夾將文件/模塊

（一）爬蟲之網頁下載

1，相關知識　　robots.txt: 一些網站會定義robots.txt檔案（https://www.example.com/robots.txt），規定了網頁爬取的相關限制，檢視其內容，遵守規則可以避免過早IP被封。　　　　下面為知乎robots.txt部分內容（https://www.zhihu

python(四)網頁下載器

網頁下載器有兩種: 1 urllib2 —Python官網基礎模組 2 requests —第三方包更強大 urllib2 最簡潔的方法 urllib2.urlopen(url) urllib2下載網頁方法2 :新增data,http hea

爬蟲小試--用python中requests和urllib模塊爬取圖片

源碼一個 -- .text 本地 requests style intel 加載今天突發奇想小試爬蟲,獲取一下某素材站一些圖片實現步驟如下: import re import requests from urllib import request import os

爬蟲學習01 str型別和bytes型別 Unicode UTF8 ASCII 的補充 str bytes如何轉化

bytes:二進位制網際網路上的資料都是以二進位制方式傳輸的 str: unicode的呈現形式字元（Character）是各種文字和符號的總稱，包括各國家文字、標點符號、圖形符號、數字符號等字符集（Character）是多個字元的集合字符集包括：ASCII字符

Python 學習第十五篇：模塊搜索路徑和包導入

部分 blank 所有 python 環境變量 bsp 引入 html pytho 在導入自定義的模塊時，除了指定模塊名之外，也需要指定目錄，由於Python把目錄稱作包，因此，這類導入被稱為包導入。包導入把計算機上的目錄變成Python的命名空間，而目錄中所包含的子目錄和

Query String模塊和http小爬蟲和events模塊和fs模塊和stream模塊

card .net ins query 小爬蟲 headers inline def pack ## querystring模塊 1. 功能：是node.js中處理字符的 2. 核心方法 - parse：將string->object - parse( s

爬蟲學習——網頁下載器和urllib2模塊

相關推薦