爬蟲總結1
阿新 • • 發佈:2018-12-03
1. 爬蟲的流程
a. url
b. 傳送請求獲取響應
c. 提取的資料,就處理儲存
d. 提取的是url,重複b步驟
2. http和https的概念
http 超文字 傳輸 協議 80
https http+ssl 443
3. 瀏覽器最終展示出來的結果,是多次請求對應的多次響應共同渲染的結果
4. 必須關注的請求頭和響應頭
User-Agent
Referer
Cookie
Set-cookie
5. requests模組傳送簡單的get請求
response = requests.get('http://host:port')
6. response常用屬性
response.url
response.status_code
response.headers
response.request.headers
response.cookies
response.request._cookies
7. response響應的文字內容
response.text str
response.content bytes
# 解決中文顯示亂碼問題
response.content.decode('utf8')
# ascii gbk gb2312 iso-8859-1