1. 程式人生 > >爬蟲總結2

爬蟲總結2

1. requests傳送get請求

requests.get(url,
			 headers={},
			 cookies={},
			 timeout=3,
			 verify=False,
			 proxies={})

2. 傳送post請求

requests.post(url,
			  data={},
			  #其他引數和get請求一致!)

3. requests.session()的使用

# session傳送請求的方法和引數是跟requests.get/post一摸一樣
# 能夠自動處理cookies,達到狀態保持的目的

4. response響應物件常用屬性

response.url
response.status_code
response.headers
response.request.headers
response.cookies # cookiejar
response.request._cookies 

5. 響應的內容

response.text # str
response.content # bytes
response.content.decode(utf8)
# gbk gb2312 ascii iso-8859-1

6. 代理ip的使用

requests.get(url, proxies={
	'http': 'http://host:port'
	'https': 'https://host:port'	
})

7. retry裝飾器和超時引數的配合使用

@retry(stop_max_attempt_number=3)
def func():
	requests.get(url, timeout=3)

8. 代理ip分類

根據匿名程度:透明 匿名 高匿
根據協議不同:http https socket