爬蟲總結2
阿新 • • 發佈:2018-12-03
1. requests傳送get請求
requests.get(url,
headers={},
cookies={},
timeout=3,
verify=False,
proxies={})
2. 傳送post請求
requests.post(url,
data={},
#其他引數和get請求一致!)
3. requests.session()的使用
# session傳送請求的方法和引數是跟requests.get/post一摸一樣
# 能夠自動處理cookies,達到狀態保持的目的
4. response響應物件常用屬性
response.url
response.status_code
response.headers
response.request.headers
response.cookies # cookiejar
response.request._cookies
5. 響應的內容
response.text # str
response.content # bytes
response.content.decode(utf8)
# gbk gb2312 ascii iso-8859-1
6. 代理ip的使用
requests.get(url, proxies={ 'http': 'http://host:port' 'https': 'https://host:port' })
7. retry裝飾器和超時引數的配合使用
@retry(stop_max_attempt_number=3)
def func():
requests.get(url, timeout=3)
8. 代理ip分類
根據匿名程度:透明 匿名 高匿
根據協議不同:http https socket