Python爬蟲學習——1.爬蟲入門
阿新 • • 發佈:2020-11-16
HTTP和HTTPS
HTTP協議
(HyperText Transfer Protocol,超文字傳輸協議):是一種釋出和接收 HTML頁面的方法。
HTTPS
(Hypertext Transfer Protocol over Secure Socket Layer)簡單講是HTTP的安全版,在HTTP下加入SSL層。
SSL
(Secure Sockets Layer 安全套接層)主要用於Web的安全傳輸協議,在傳輸層對網路連線進行加密,保障在Internet上資料傳輸的安全。
HTTP
的埠號為80
,HTTPS
的埠號為443
HTTP請求方式
- get請求:從伺服器上獲取指定頁面資訊
特點:比較便捷
缺點:不安全,引數的長度有限制
- post請求:向伺服器提交資料並獲取頁面資訊
特點:比較安全,資料整體沒有限制,通常用來向HTTP伺服器提交量比較大的資料(比如請求中包含許多引數或者檔案上傳操作等)
當傳送網路請求時(需要帶一定的資料給伺服器,不帶資料也可以),會看到請求頭:request header和客戶端返回資料的相應:response
request headers包含資訊:
- Accept:文字的格式
- Accept-Encoding:編碼格式
- Connection:長連結/短連結
- Cookie:驗證用的資訊
- Host:域名
- Referer:標誌從那個頁面跳轉過來的
- User-Agent:瀏覽器和使用者的資訊
爬蟲入門
1. 什麼是爬蟲?
使用程式碼模擬使用者,批量的傳送網路請求,批量的獲取資料。
2. 爬蟲的價值?
買賣資料(高階的領域價格昂貴!!);資料分析;流量;......
3. 爬蟲的合法性?
灰色產業(沒有法律明確規定是否違法)。
4. 爬蟲可以爬取所有東西嗎?
不可以。爬蟲只能怕去到使用者所能訪問到的資訊。如騰訊視訊vip使用者可以爬取vip視訊,普通使用者只可爬取非vip的視訊。
5. 爬蟲的分類?
- 通用爬蟲:使用搜索引擎
- 優勢:開放性,速度快
- 劣勢:目標不明確,返回內容大多使用者不需要,不清楚使用者的需求
- 聚焦爬蟲!!!
- 優勢:目標明確,能夠精準捕捉使用者需求,返回的內容固定
6. 爬蟲的工作原理 ?
(1)確認你抓取目標的url是哪一個
(2)使用Python程式碼傳送網路請求來獲取資料
(3)解析獲取到的資料(精確資料)
(4)資料持久化(將資料儲存在本地)
學習課程:B站《廖雪峰爬蟲》