python爬蟲學習第四章

阿新 • • 發佈：2018-01-13

center 導入編碼 .cn 設置 figure imp cto 內部

Urllib庫與URLError異常處理

什麽是Urllib庫

Urllib是Python提供的一個用於操作URL的模塊。

快速使用Urllib爬取網頁

首先導入模塊
import urllib.request
導入後，爬取
file = urllib.request.urlopen("http://www.baidu.com")
讀取，三種方式
1. file.read()讀取文件的全部內容，與readlines不同的是，read會把讀取到的內容賦給一個字符串變量
2. file.readlines()讀取文件的全部內容，與read不同的是，readlines會把讀取到的內容賦給一個列表變量，若要讀取全部內容，推薦使用這種方式
3. File.readline()讀取文件的一行文件。
如何將爬取到的網頁保存到本地以網頁形式
1. 首先，爬取一個網頁並將爬取到的內容賦值給一個變量。
2. 以寫入的方式打開一個本地文件，命名為*.html等網絡格式。
3. 將1中變量寫入文件
4. 關閉該文件。
fhandle=open(r"C:\Users\My\Desktop\git學習\1.html",‘wb‘) fhandle.write(file.read()) fhandle.close()

urlretreve()函數

直接將對應信息寫入文件。格式：urllib.request.urlretrieve(url,filename=本地文件地址)

urllib.request.urlretrieve("http://www.51cto.com/",filename=r"C:\Users\My\Desktop\git學習\2.html")
urlretrieve執行的過程中，會產生緩存，清除緩存
urllib.request.urlcleanup()
獲取與當前環境相關的信息使用info。file.info()
獲取當前爬取網頁的狀態碼，使用getcode(),若返回200為正確，返回其他的不正確。
file.getcode()
獲取爬取網頁的URL，使用geturl()file.geturl()
一般來說,URL標準中只會允許一部分ASCII字符比如數字、字母、部分符號等，而其他的一些字符，比如漢字等，是不符合URL標準的。所以如果我們在URL中使用一些其他不符合標準的字符就會出現問題，此時需要進行URL編碼方可解決。比如在URL中輸入中文或者“：”或者“&”等不符合標準的字符時，需要編碼。
如果要進行編碼，使用urllib.request.quete()進行,比如,我們對“http://www.sina.com.cn"進行編碼。
urllib.reqeust.quote("http://www.sina.com.cn") 輸出‘http%3A//www.sina.com.cn‘
解碼
urllib.request.unquote("http%3A//www.sina.com.cn") 輸出‘http://www.sina.com.cn‘

瀏覽器的模擬---Headers屬性

有時候，我們無法爬取一些網頁，出現403錯誤，這是因為這些網頁為了防止別人惡意采集信息進行的反爬蟲的設置。
如果想爬取，我們可以設置Headers信息，模擬成瀏覽器去訪問這些網站。設置Headers，首先需要的是找出User-Agent。
技術分享圖片
有兩種方法讓爬蟲模擬成瀏覽器範文網頁
1. 使用buildopener()修改報頭
import urllib.request url="網頁地址" headers=("User-Agent","瀏覽器裏找到的User-Agent") opener=urllib.request.build_opener() opener.addheaders=[headers] data=opener.open(url).read() fhandler=open("存放網頁的地址","wb") fhandler.write(data) fhandler.close()
2. 使用addheader()添加報頭
import urllib.request url="網頁地址" req=urllib.request.Request(url) req.add_header(‘User-Agent‘,"瀏覽器找到的User-Agent") data=urllib.request.urlopen(req).read()

超時設置

有的時候，訪問一個網頁，如果該網頁長時間未響應，那麽系統判斷該網頁超時，即無法打開該網頁。
import urllib.requestfile=urllib.request.urlopen("網頁地址",timeout=時間值)

HTTP協議請求實戰

HTTP協議請求主要分為6種類型。
1. GET請求：GET請求會通過URL網址傳遞信息，可以直接在URL中寫上要傳遞的信息，也可以有表單進行傳遞。如果使用表單進行傳遞，這表單中的信息會自動轉為URL地址中的數據，通過URL地址傳遞。
2. POST請求：可以向服務器提交數據，是一種比較主流也比較安全的數據傳遞方式，比如在登錄時，經常使用POST請求發送數據。
3. PUT請求：請求服務器存儲一個資源，通常要指定存儲的位置。
4. DELETE請求：請求服務器刪除一個資源
5. HEAD請求：請求獲取對應的HTTP報頭信息。
6. OPTIONS請求：可以獲得當前URL所支持的請求類型。
除此之外還有TRACE請求和CONNECT請求等，TRACE請求主要用於測試或診斷。
詳細講解GET與POST
- GET請求實例分析
import urllib.request keywd="hello" url="http://www.baidu.com/s?wd="+keywd req=urllib.request.Request(url) data=urllib.request.urlopen(req).read() fhandle=open("文件存儲地址","wb") fhandle=write(data) fhandle.close()
當檢索中文會報錯。
UnicodeEncodeError
import urllib.request url="http://www.baidu.com/s?wd=" key="韋瑋老師" key_code=urllib.request.quote(key) url_all=url+key_code req=urllib.request.Request(url_all) data=urllib.request.urlopen(req).read() fh=open("文件地址","wb") fh.write(data) fh.close()
使用GET請求，思路如下:
1. 構建對應的URL地址，該URL地址包含GET請求的字段名和字段內容等信息，並且URL地址滿足GET請求的格式，即“http://網址?字段名1=字段內容1&字段名2=字段內容2”。
2. 對應的URL為參數，構建Request對象。
3. 通過urlopen（）打開構建的Request對象。
4. 按需求進行後續的處理操作。比如讀取網頁內容，或寫入文件。
- POST請求實例分析
使用Post請求，思路如下： 1. 設置好URL網址。
2. 構建表單數據，並使用urllib.parse.urlencode對數據進行編碼處理
3. 創建Request對象，參數包括URL地址和要傳遞的數據。
4. 使用add_header()添加頭信息，模擬瀏覽器進行爬取。
5. 使用urllib.request.urlopen()打開對應的Request對象，完成信息的傳遞。
6. 後續處理，比如讀取，寫入文件等。
import urllib.request import urllib.parse url="網頁地址" postdata=urllib.parse.urlencode({ ‘name‘:‘aaa‘, ‘pass‘:‘bbb‘}).encode(‘utf-8‘)#將數據使用urlencode編碼處理後，使用encode()設置為utf-8編碼 req=urllib.request.Request(url,postdata) req.add_header(‘User-Agent‘,‘User-Agent數據‘) data=urllib.request.urlopen(req).read() fd=open("存儲地址",‘wb‘) fd.write(data) fd.close()

代理服務器的設置

#代理服務器網站http://yum.iqianyue.com/proxy def use_proxy(proxy_addr,url): import urllib.request proxy=urllib.request.ProxyHandler({‘http‘:proxy_addr}) opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler) urllib.request.install_opener(opener) data=urllib.request.urlopen(url).read().decode(‘utf-8‘) return data proxy_addr="代理服務器地址加端口" data=use_proxy(proxy_addr,"網頁地址") print(len(data))

DebugLog實戰

異常處理神器----URLError實戰

import urllib.request import urllib.error try: urllib.request.urlopen("網頁地址") except urllib.error.URLError as e: print(e.code) print(e.reason) 輸出錯誤： 403 Forbidden
產生URLError的原因有如下幾種可能：1. 鏈接不上服務器2. 遠程URL不存在3. 無網絡4. 觸發了HTTPError403觸發了是URLError的子類HTTPError，所以可以改成import urllib.request import urllib.error try: urllib.request.urlopen("網頁地址") except urllib.error.HTTPError as e: print(e.code) print(e.reason)狀態碼含義：200 OK
一切正常
301 Moved Permanently
重定向到新的URL，永久性
302 Found
重定向到臨時的URL，非永久性
304 Not Modified
請求的資源為更新
400 Bad Request
非法請求
401 Unauthorized
請求未經授權
403 Forbidden
禁止訪問
404 Not Found
沒有找到對應頁面
500 Internal Server Error
服務器內部出現錯誤
501 Not Implemented
服務器不支持實現請求所需要的功能
HTTPError無法處理URLError的前三個錯誤。處理會報錯。import urllib.request import urllib.error try: urllib.request.urlopen("http://blog.baidusss.net") except urllib.error.HTTPError as e: print(e.code) print(e.reason) except urllib.error.URLError as e: print(e.reason)

python爬蟲學習第四章

center 導入編碼 .cn 設置 figure imp cto 內部 html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,

python爬蟲學習第四章

Urllib庫與URLError異常處理

什麽是Urllib庫

快速使用Urllib爬取網頁

urlretreve()函數

瀏覽器的模擬---Headers屬性

超時設置

HTTP協議請求實戰

代理服務器的設置

DebugLog實戰

異常處理神器----URLError實戰

python爬蟲學習第四章

python爬蟲學習第五章正則

Python學習第四章

Python學習-第四章索引

我要翻譯《Think Python》- 006 第四章學習案例：介面設計

Linux學習第四章

Python爬蟲學習==>第一章：Python3+Pip環境配置

Python爬蟲學習==>第二章：MongoDB環境配置

Python之旅.第四章.模塊與包 4.02

Python之旅.第四章.模塊與包.總結（未完待遇）

Python之旅.第四章.模塊與包4.09

python爬蟲學習筆記四：BeautifulSoup庫對HTML文字進行操作

Python入門筆記—第四章（列表List）

Python 語言學習第四篇：動態型別模型

Python系統學習第四課

中文程式碼示例視訊演示Python入門教程第四章控制流

python爬蟲學習第十二天

SpringBoot學習-第四章 SpringMVC基礎-

Python爬蟲學習（四）正則表示式

Python寶典第四章：可複用的函式與模組

python爬蟲學習第四章

Urllib庫與URLError異常處理

什麽是Urllib庫

快速使用Urllib爬取網頁

urlretreve()函數

瀏覽器的模擬---Headers屬性

超時設置

HTTP協議請求實戰

代理服務器的設置

DebugLog實戰

異常處理神器----URLError實戰

相關推薦