1. 程式人生 > 其它 >爬蟲第二天學習工具

爬蟲第二天學習工具

技術標籤:python

學習爬蟲第二天

1urllib.request模組
方法
//需要新增cookie和data或者headers時候
//需要先收集一個響應物件】
//urllib.request.Request(url,關鍵字引數); ///因為urlopen()不支援重構
1 urllib.request.urlopen(網址(需要新增cookie和data或者headers時候需要放一個響應物件))
2 response.read() ------>返回一個位元組流
2 response.read().decode(‘utf-8’) ------>返回一個字串
響應物件的方法
response.read() —>讀取伺服器響應的內容

response.getcode—>返回HTTP的響應碼
response.geturl---->返回實際資料的URL(防止重定向)
2urllinb.parse模組
urlencode(字典)-------->返回 鍵=值(十六進位制)&下一個鍵=值(十六進位制)
quote(字串) (這個⾥⾯的引數是個字串)–>把字串轉換為十六進位制返回
3requests
1 下載 pip install requests
2 常用方法 requests.get()
3 響應物件response的方法
response.text 返回unicode格式的資料(str)
response.content 返回位元組流資料[(二進位制)
response.content.decode(‘utf-8’) 手動進行解碼
response.url 返回url
response.encoding = ‘編碼’ 編碼的方式
4 傳送post請求
就是把form data裡面的資料弄成一個字典 放在

url = '網址'
# formdata  裡面的資料
data = {
    'i': 'ss',
    'from': 'AUTO',
    'to': 'AUTO'}
requests.post(url,data=data)

5 設定代理ip 就是更改請求ip地址防止ip被封
使⽤requests新增代理只需要在請求⽅法中(get/post)傳遞proxies引數就

可以了
6 cookie 和ip一樣 新增引數就可以
7 SSL證書不信任網站
res = requests.get(url, verify=False)
verify=False 的意思是跳過ssl認證