1. 程式人生 > 實用技巧 >Python爬蟲入門(二)之Requests庫

Python爬蟲入門(二)之Requests庫

Python爬蟲入門(二)之Requests庫

我是照著小白教程做的,所以該篇是更小白教程hhhhhhhh

一、Requests庫的簡介

Requests 唯一的一個非轉基因的 Python HTTP 庫,人類可以安全享用。(摘自Requests庫官方文件

二、Requests的功能特性

Requests 完全滿足今日 web 的需求。

  • Keep-Alive & 連線池
  • 國際化域名和 URL
  • 帶持久 Cookie 的會話
  • 瀏覽器式的 SSL 認證
  • 自動內容解碼
  • 基本/摘要式的身份認證
  • 優雅的 key/value Cookie
  • 自動解壓
  • Unicode 響應體
  • HTTP(S) 代理支援
  • 檔案分塊上傳
  • 流下載
  • 連線超時
  • 分塊請求
  • 支援 .netrc

Requests 支援 Python 2.6—2.7以及3.3—3.7,而且能在 PyPy 下完美執行。

三、執行環境

  • Windows版本
    我的電腦用的是Win7系統,因為從上大學開始,很多軟體裝上使用不了,比如VC++6.0等等,當時是說Win10還有很多軟體不相容(PS:16年的Win10還不大成熟...),後來就一直用的Win7,當然前不久微軟也發官方通告了,Win7被淘汰了,不過沒關係,Win7和Win10在大多數情況下,是類似的,這個爬蟲系列我就以Win7為例。
  • Python版本
    看了很多教程,我下了anaconda,它是一個開源的Python發行版本,其包含了conda、Python等180多個科學包及其依賴項(PS:應該蠻好用,要不然也不會那麼多人用它hhh)。這次我下的是3.8版本的,傳送門
    Anaconda官網
  • 整合開發環境(IDE)
    我用的是PyCharm,這個比較經典還好用,是由JetBrains打造的一款Python IDE,傳送門JetBrains官網

四、軟體安裝

  • 安裝Python
    進入Anaconda官網點選下載安裝包

    開始安裝介面

    自定義安裝目錄,它彈了個警告,就是因為我存放的資料夾名是program Files,中間有空格,建議大家取名用連字元命名,要不然以後裝Conda packages會出問題

    安裝完成
  • 安裝IDE

    進入JetBrains官網點選下載安裝包

    開始安裝介面
  1. 第一個複選框是讓你選擇64位系統,你可以根據計算機系統確定是否勾選
  2. 第二個複選框是將開啟的資料夾做為專案新增進去
  3. 第三個複選框是關聯py型別的檔案,預設此型別檔案用PyCharm開啟
  4. 第四個複選框是將啟動器dir新增到路徑裡

五、安裝Request庫


點選開始選單,找到Anaconda的安裝目錄,以管理員身份執行Anaconda Prompt

// 鍵入命令
conda install requests


鍵入上面的命令,開始安裝Request庫

安裝完畢,傳送門Requests庫官方文件,其中有很多本文沒提到的庫操作方法。
在安裝此庫,我遇到了一些問題,就是我看的教程裡,博主是直接用的cmd,我也用管理員身份執行,我懷疑是因為安裝目錄和操作目錄不是一個,所以鍵入命令,不能識別我的字。使用了Anaconda來安裝該庫,可能對於我來說簡單一丟丟hhhhhhh

六、初試PyCharm


開啟PyCharm,新建專案,建議放在自己命名測試的資料夾裡

在資料夾裡新建Python檔案
輸入下方程式碼匯入Request庫

import requests #匯入Request庫

繼續輸入獲取我們想要的網頁

r = requests.get('https://unsplash.com') #像目標url地址傳送get請求,返回一個response物件
print(r.text) #r.text是http response的網頁HTML


點選執行該程式碼

頁面下方得到執行結果

以上用了get請求,我們可以繼續輸入下方程式碼檢視型別
向網站傳送了一個get請求,然後網站會返回一個response,r 就是response

print(type(r))


可以看到輸出結果如下

建議大家多看看Requests庫官方文件

沒有別的指南了,你現在要靠自己了

祝你好運