1. 程式人生 > >Python 爬蟲學習筆記1

Python 爬蟲學習筆記1

urllib模組:
urllib.requests: 開啟和讀取urls
urllib.error: 包含urllib.requests 產生的常見錯誤,使用try捕捉
urllib.parse: 包含即系url方法
urllib.robotparse: 解析robots.txt檔案

網頁編碼問題解決:
chardet 可以自動檢測頁面檔案的編碼格式,可能有誤

urlopen的返回物件:
geturl: 返回請求物件的url
info: 返回請求物件的meta資訊
getcode: 返回http code

request.data:
訪問網路的兩種方法:
get:利用引數給伺服器傳遞資訊,引數為dict,然後用parse編碼
post:一般向伺服器傳遞引數使用,把資訊自動加密處理,如果想使用post資訊,需要使用data引數
使用post,意味著http的請求頭可能需要修改
一旦更改請求方法,需要注意其他請求頭部資訊相適應

request.Request

urllib.error: 沒網,伺服器連線失敗, 不知道指定伺服器, OS.error子類 一般對應網路出現問題,包括URL問題

HTTPError 對應的HTTP請求的返回碼的錯誤,是URLError的一個子類

UserAgent 使用者代理,屬於heads一部分,伺服器通過UA判斷訪問者身份 使用時可以複製,也可以web抓包
設定方式: heads , add_header