1. 程式人生 > 實用技巧 >第二十四節課:requests爬蟲實戰

第二十四節課:requests爬蟲實戰

# 第二十四節課:requests爬蟲實戰
'''
本節課大綱:
1- 爬蟲的概述
2- 爬蟲實操流程
3- 實戰操作
'''
# 1- 爬蟲的概述
# 我們瞭解的網路爬蟲是什麼? ------爬取資料
# 使用者獲取網路資料的方式:瀏覽器提交請求-->下載網頁程式碼-->解析/渲染成頁面
# 爬蟲流程:模擬瀏覽器傳送請求-->下載網頁程式碼-->只提取有用的資料-->存放於資料庫或者檔案中
# 網路爬蟲:想網站發起請求,獲取資源後分析並提取有用資料的程式
# 網路爬蟲的作用:資訊時代,資料可以創造財富
# 網際網路中最有價值的便是資料,比如天貓商城的商品資訊,鏈家網的租房資訊等等,這些資料都代表了各行各業的真金白銀

# 2- 爬蟲操作流程
# 很簡單 Python(用於構造編輯請求)+requests(用這個庫區傳送和解析請求)+excel(存資料) 就可以實現爬蟲
# 1、模擬瀏覽器傳送請求
# 2、下載網頁程式碼
# 3、只提取有用的資料
# 4、存放於資料庫或者檔案中
# 例項:
import requests
'''
反扒機制:
1- 判別是否是瀏覽器--後果:報錯遠端主機強迫關閉了一個現有連結--解決方案:模擬瀏覽器
2- 驗證碼 拖拽或者輸入
3- 封IP
4- 封賬號
'''
user_header = {'User-Agent':'Baiduspider'}
# 1 使用requests構建請求
web_usl='https://www.51job.com/'
resp = requests.get(web_usl,headers = user_header) #如果有反扒機制,就在括號裡面加上headers,即寫作:resp = requests.get(web_usl,headers =user_header)
# 2 獲取響應資料
print(resp.text) #打印出來有超級多的程式碼
# 3 提取有效資料

# 4 儲存Excel