1. 程式人生 > 實用技巧 >Python爬蟲學習——1.爬蟲入門

Python爬蟲學習——1.爬蟲入門

HTTP和HTTPS

HTTP協議(HyperText Transfer Protocol,超文字傳輸協議):是一種釋出和接收 HTML頁面的方法。

HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)簡單講是HTTP的安全版,在HTTP下加入SSL層。

SSL(Secure Sockets Layer 安全套接層)主要用於Web的安全傳輸協議,在傳輸層對網路連線進行加密,保障在Internet上資料傳輸的安全。

  • HTTP的埠號為80
  • HTTPS的埠號為443

HTTP請求方式

  • get請求:從伺服器上獲取指定頁面資訊

    特點:比較便捷

    缺點:不安全,引數的長度有限制

  • post請求:向伺服器提交資料並獲取頁面資訊

    特點:比較安全,資料整體沒有限制,通常用來向HTTP伺服器提交量比較大的資料(比如請求中包含許多引數或者檔案上傳操作等)

當傳送網路請求時(需要帶一定的資料給伺服器,不帶資料也可以),會看到請求頭:request header和客戶端返回資料的相應:response

request headers包含資訊:

  • Accept:文字的格式
  • Accept-Encoding:編碼格式
  • Connection:長連結/短連結
  • Cookie:驗證用的資訊
  • Host:域名
  • Referer:標誌從那個頁面跳轉過來的
  • User-Agent:瀏覽器和使用者的資訊

爬蟲入門

1. 什麼是爬蟲?

  使用程式碼模擬使用者,批量的傳送網路請求,批量的獲取資料。

2. 爬蟲的價值?

  買賣資料(高階的領域價格昂貴!!);資料分析;流量;......

3. 爬蟲的合法性?

  灰色產業(沒有法律明確規定是否違法)。

4. 爬蟲可以爬取所有東西嗎?

  不可以。爬蟲只能怕去到使用者所能訪問到的資訊。如騰訊視訊vip使用者可以爬取vip視訊,普通使用者只可爬取非vip的視訊。

5. 爬蟲的分類?

  • 通用爬蟲:使用搜索引擎
    • 優勢:開放性,速度快
    • 劣勢:目標不明確,返回內容大多使用者不需要,不清楚使用者的需求
  • 聚焦爬蟲!!!
    • 優勢:目標明確,能夠精準捕捉使用者需求,返回的內容固定

6. 爬蟲的工作原理 ?

  (1)確認你抓取目標的url是哪一個

  (2)使用Python程式碼傳送網路請求來獲取資料

  (3)解析獲取到的資料(精確資料)

  (4)資料持久化(將資料儲存在本地)

學習課程:B站《廖雪峰爬蟲》