1. 程式人生 > >爬蟲總結1

爬蟲總結1

1. 爬蟲的流程

a. url
b. 傳送請求獲取響應
c. 提取的資料,就處理儲存
d. 提取的是url,重複b步驟

2. http和https的概念

http 超文字 傳輸 協議 80
https http+ssl 443

3. 瀏覽器最終展示出來的結果,是多次請求對應的多次響應共同渲染的結果

4. 必須關注的請求頭和響應頭

User-Agent
Referer
Cookie
Set-cookie

5. requests模組傳送簡單的get請求

response = requests.get('http://host:port')

6. response常用屬性

response.url
response.status_code 

response.headers
response.request.headers

response.cookies
response.request._cookies

7. response響應的文字內容

response.text str 
response.content bytes
# 解決中文顯示亂碼問題
response.content.decode('utf8')
# ascii gbk gb2312 iso-8859-1

8. 圖片或音訊視訊儲存本地要以bytes型別儲存!