Python爬蟲環境搭建 | 爬蟲獲取所有課程資訊

阿新 • • 發佈：2018-12-30

什麼是爬蟲

爬蟲實際上就是採集網路上資料的一段程式，如果把網際網路比喻成一個蜘蛛網，那麼蜘蛛就是在網上爬來爬去的蜘蛛，爬蟲程式通過請求url地址，根據響應的內容進行解析採集資料，比如：如果響應內容是html，分析dom結構，進行dom解析、或者正則匹配，如果響應內容是xml/json資料，就可以轉資料物件，然後對資料進行解析。

資源視角

網際網路上一切都是資源，比如視訊資源，新聞資源等，爬蟲實際上就是批量將別人的資源採集下來變成自己的資源的程式。

爬蟲的一些例子

從其他網站爬取特定型別的商品資訊，然後釋出在自己的網上商城裡
從其他網站爬取一些特定圖片，展示在自己的網站裡
搜尋引擎爬取網站基本資訊，收錄在自己的搜尋結果裡

最簡單的爬蟲套路

訪問1個站點，獲取該站點的html程式碼
解析html程式碼，把感興趣的資料從html程式碼裡分離出來
儲存這些資料

實際例子

假設我需要抓取重定向科技目前開設的所有測試課程，那麼

先訪問所有課程頁面，把html程式碼拿到
解析html程式碼，從裡面摳出來課程的名稱和詳情地址
儲存課程的名稱和地址

這樣就可以實現一個最簡單的網路爬蟲了。

爬蟲對於測試的意義

有時候自己去造一些測試資料是很麻煩的事情，這時候我們就可以使用爬蟲去獲取其他站點的類似資料，對資料進行加工後就可以當測試資料來使用了。

開發環境介紹

我們使用python來實現最簡單的爬蟲。

使用python的requests庫來發起http請求並獲取目標站點的html程式碼。
使用python的BeautifulSoup庫來解析html，從html中提取感興趣的內容。

Requests教程

大家可以在測試教程網requests教程中找到requests庫的一些典型用法。

環境搭建

安裝python3，可以參考這裡
安裝requests，可以參考這裡
安裝BeautifulSoup，可以參考這裡

作者使用軟體版本

我的電腦上環境是這樣

python: 3.5.2
requests: 2.13.0
beautifulsoup4: 4.6.0

不需要與我的版本保持完全一致，只需要大於等於我使用的版本就可以了

獲取所有課程資訊

我們現在來實現第一個超級簡單的網路爬蟲用來抓取重定向科技目前開設的所有測試課程，並打印出來，步驟大概是這樣子

先訪問所有課程頁面，把html程式碼拿到，實際上就是拿到一個很長的文字，文字內容就是網頁的html程式碼
分析html程式碼，找到我們需要獲取資訊的html特徵
解析html程式碼，根據html特徵，從裡面摳出來課程的名稱
打印出所有課程的名稱

分析html程式碼

我們在編寫爬蟲的時候往往會花很多時間在分析html程式碼上，畢竟重要的資訊都包含在html程式碼中，我們需要找到合適的特徵，通過固定的套路去解析html，獲取特定內容。

課程名稱部分的html程式碼如下所示

<div class="col-md-3 col-sm-6"> <div class="servive-block-in servive-block-colored servive-block-grey"> <h4>效能測試從入門到精通班</h4><div><i class="icon-rocket"></i> </div> <p>2017年09月23日開課，為期3個月</p></div>

可以看到，課程名稱的html標籤是h4，通過搜尋整個頁面，我們發現頁面上只有4個h4，也就是說，只要獲取到頁面上所有的h4，我們就能把課程名稱給解析出來。

分析html一般有下面一些套路

縮小範圍: 只解析特定區域的html，比如只遍歷<nav></nav>標籤中的子元素
組合屬性: 有一些節點的屬性是相同的，但我們經常只需要獲取其中一些節點的內容，這時候可以通過組合該節點屬性和其父節點屬性的方式指定特定的節點
先遍歷後過濾：還是上面一種情況，我們也可以先遍歷所有的目標節點，再從目標節點中過濾出我們感興趣的內容

解析html程式碼

大家可以先去了解一下html的基礎知識，比較有用的是

html元素
html屬性

Beautiful Soup庫可以幫我們解析html程式碼，所謂的解析，無非是做下面的一些事情

從html文件中找到一些元素
獲取某個元素或者一些元素的屬性
獲取某個元素或者一些元素的文字

在這個例子裡，我們就是要找到所有h4元素，並獲取所有h4元素的文字。

程式碼

新建名為get_courses.py的檔案，輸入下面的內容

import requestsfrom bs4 import BeautifulSoupurl = 'http://www.ixxt.info/courses' # 定義被抓取頁面的url# 獲取被抓取頁面的html程式碼，並使用html.parser來例項化BeautifulSoup，屬於固定套路soup = BeautifulSoup(requests.get(url).text, 'html.parser')# 遍歷頁面上所有的h4for course in soup.find_all('h4'): # 打印出h4的text屬性 print(course.text)

執行

在命令列中輸入

python get_courses.py

預期結果

如果一切正常，那麼應該可以看到下面的結果

效能測試從入門到精通班介面自動化測試開發--Python班Selenium自動化測試--Java班Selenium自動化測試--Python班

作者：西邊人

西說測試，公眾號：testpu

Python爬蟲環境搭建 | 爬蟲獲取所有課程資訊

什麼是爬蟲爬蟲實際上就是採集網路上資料的一段程式，如果把網際網路比喻成一個蜘蛛網，那麼蜘蛛就是在網上爬來爬去的蜘蛛，爬蟲程式通過請求url地址，根據響應的內容進行解析採集資料，比如：如果響應內容是html，分析dom結構，進行dom解析、或者正則匹配，如果響應內容是xml/

python爬蟲環境搭建

1、所需軟體：eclipse、pydev外掛、python安裝包 2、安裝python安裝包：初學者可用shell編寫Python： 3、把外掛解壓之後的檔案合併到 eclipse 目錄裡面：外掛解壓後： 4、重啟Eclipse：在Wi

Appium爬蟲環境搭建

環境說明 1、所需軟體 appium，java，android-sdk 2、安裝根據自己電腦規格下載對應的版本安裝過程中沒有什麼問題，下一步下一步就可以完成 2、JDK下載，下載java8 根據自己的電腦規格下載對應的版本，安裝過程中，會安裝jdk以

Python實現人人網爬蟲，爬取使用者所有狀態資訊。

之前沒有怎麼用過python，也沒寫過爬蟲，最近幾天抽空學習了一下，寫了個人人網的爬蟲練了練手。用了BeautifulSoup4包來解析HTML標籤，Beautiful Soup 是用 Python 寫的一個 HTML/XML 的解析器，它可以很好的處理不

一、python3 爬蟲環境搭建之 Anaconda 和 Scrapy

python3 只是爬蟲開發的程式語言，開發爬蟲還需要很多其他環境，比如 IDE 工具，常用庫等等. 根據我的使用體驗，推薦如下環境搭建步驟，桌面環境為 Windows 10.安裝 AnacondaAnaconda 是一個整合度很高的基於 python 的資料科學平臺，無論在

Python開發環境搭建

get python安裝 path 開發環境搭建 .py tar -s org pat 1、去到Python官網下載Python的安裝程序https://www.python.org/ 2、直接運行Python安裝程序python-2.7.13.msi（安裝方法很簡單，直接

python+selenium環境搭建以及遇到的坑

三方庫很大的第三方庫 git 工具解壓縮 .py clas 安裝python ---恢復內容開始--- window10下環境搭建 1.安裝python https://www.python.org/downloads/ 在該網址下下載python最新版本，點擊

NGINX+UWSGI+PYTHON+FLASK環境搭建——————學習筆記

conf pre listen 入口 root block helloword rc.local ftp 搭建環境安裝依賴包 #yum -y install gcc gcc-c++ zlib zlib-devel openssl openssl-devel pcre p

ubuntu下零基礎建站之python基礎環境搭建

而不是 -s AD 分享圖片 div -a 創建 9.png home 這篇說的是 ubuntu下 python 基礎環境 python2.7（為什麽是2.7而不是3？ tornado 對2.7支持比較好，還有很多包也是支持2.7） 1. 輸入python 發現不存在有p

Python UI環境搭建

pychar 網絡庫 rap qt4 nload 莫名其妙 charm pro 節奏 Python UI我感覺PyQt最強大最方便。但是Python的更新速度太快，讓諸多類似庫跟不上節奏。 PyQt做UI早前只支持Python3.4或python2.7，但是最近有個好消息，

python虛擬環境搭建

pythonpython的虛擬環境搭建方法一 pyenv安裝 git # yum install git -y Python依賴包安裝 # yum -y install gcc make patch gdbm-devel openssl-devel sqlite-devel readline-devel z

python mac環境搭建

matplot 哪些方便目錄 uil removing virtual mkdir smo 安裝 virtualenv $ sudo pip install virtualenv 然後建立一個測試目錄： $ mkdir testvirtual $ cd testvir

Appium+python自動化環境搭建（小白適用）

pri 一個選中 sdk JD size 4.2 KS microsoft 寫在前面：沒開始搭建前聽好多人說，學習appium80%的人都死於環境搭建，所以一開始很緊張，在搭建環境中也確實遇到了好幾個問題，由於之前本人使用app測試經驗很少，所以相當於app小白，因此有

Mac Python PyQt5 環境搭建

pre install bubuko all ins nbsp pip 搭建 inf pip install pyqt5 Mac Python PyQt5 環境搭建

python+django環境搭建

完成 ria 驗證官網安裝完成環境搭建 django pytho ava 1.安裝python3 2.設置python3的環境變量 3.進入命令行模式，輸入 pip install django 1.10.3 4.驗證是否安裝完成 pip show djang

python+selenium環境搭建

web image all bubuko org man ngram 郵箱附加我使用的是win10系統，將要搭建的版本分別是：python版本-3.7.0，selenium版本-3.14.1，火狐瀏覽器版本-61.0.2，geckodriver版本-0.21.0 現在開

C++中嵌入Python的環境搭建

1、包含python環境：注意：python36.lib去路徑下copy一份命名為python36_d.lib，在下面載入上去，此處沒改。 2、編寫CppPython.py def add(a,b): print ("in python fun

GDAL空間資料處理100講[01]：GDAL的Python開發環境搭建

GDAL空間資料處理100講[01]：GDAL的Python開發環境搭建作者：胡佳輝 2018年11月12日本文原發於"衛星遙感大資料"公眾號，歡迎關注！如有興趣，歡迎加入"衛星遙感大資料"QQ群(877631590)或者加我微信(cddennishu)進"衛星遙感大資料"微信群。

appium+python自動化☞環境搭建

前言：appium可以說是做app最火的一個自動化框架，它的主要優勢是支援android和ios，另外指令碼語言也是支援java和Python。略懂Python，所以接下來的教程是　　　　　　　appium+python，自己搭建環境的時候，按照某些部落格安裝遇到各種奇葩問題，希望此篇文章對你有所幫助，如

Python開發環境搭建配置

轉載請標明出處： http://blog.csdn.net/hesong1120/article/details/78988597 本文出自:hesong的專欄前言工欲善其事必先利其器 Python開發的第一步就是開發環境的搭建配置了，一個

Python爬蟲環境搭建 | 爬蟲獲取所有課程資訊

什麼是爬蟲

爬蟲的一些例子

最簡單的爬蟲套路

實際例子

爬蟲對於測試的意義

開發環境介紹

Requests教程

環境搭建

作者使用軟體版本

獲取所有課程資訊

分析html程式碼

相關推薦