1. 程式人生 > >輕而易舉的抓取一個web站點

輕而易舉的抓取一個web站點

  今天一位網友突然在deepin群裡問怎麼抓取一個站點。他自己用的wget嘗試了一下,太繁瑣。失敗了。有網友建議他學習爬蟲技術的,也有說右鍵儲存的,直到有個網友提到了webhttrack這個工具。
 webhttrack這個工具算是一個簡單的,只需要點選幾個按鈕就能抓取整個站點的工具。簡單又好用。本來是不打算寫博的,無奈那位網友又沒解決。隨寫部落格以示之。
webhttrack這個工具在deepin的官方源裡面就有,所以不必下載deb包,也不需要新增源或者下載原始碼編譯安裝。我能確定的是在ubuntu的官方源裡也有。其他的Linux發行版使用者可以嘗試一下官方源,官方源沒有再去webhttrack的官網去下載相應的軟體包安裝吧。下面是deepin下的安裝方式:

 $ sudo apt-get install webhttrack
 安裝完直接在終端下執行就行了:
 $ webhttrack
 然後會啟動一個瀏覽器引導著你一步一步完成一個網站的抓取。1、2、3……step by step超級簡單。
 下面以一個例項來展示一下webhttrack的應用。我們以抓取菜鳥網中的一個c++學習部分內容為例來展開。
  1. $ webhttrack 啟動webhttrack
  2. webhttrack會自動啟動瀏覽器出現引導介面。如圖:
    輕而易舉的抓取一個web站點
    直接點選“next”進入下一步。
    3.在這一步裡會出現選擇工程名稱和儲存路徑的選擇。由於是第一次操作不會有現有工程名供選擇也不會有次級Project category供選擇。什麼意思呢?意思是你只要用過一次,下一次操作你可以選擇上一次的工程名稱及次級名稱會在下拉列表顯示。這裡直接取名:“菜鳥教程網”,Project category就取名c++吧。儲存路徑預設就行。然後“next”。由於我做過了,名稱就不在圖片輸入了,請讀者自行輸入。附圖:
    輕而易舉的抓取一個web站點

    4. 到這一步直接輸入URL就行。操作專案列表其實就是個篩選,你可以下載整個網站或者下載個別檔案等等。你甚至可以輸入多個url下載,只需編輯多個URL為txt文字檔案匯入就行。“選項”按鈕的設定其實也是一個篩選,是一個更高階的全面的篩選。如果需要的話。預設我們只輸入url來抓取我們需要的c++教程部分;http://www.runoob.com/cplusplus/cpp-tutorial.html 點選“next”下一步。附圖:輕而易舉的抓取一個web站點
    5. 這一步就自動化進行了,你可以人為忽略其中的某些部分,也可以隨時終止。附圖:輕而易舉的抓取一個web站點
  3. 最後一步,“站點映象完畢!”在點選“退出”之前你可以選擇“檢視日誌”或“瀏覽已映象的網站”。退出以後也可已瀏覽,不必輸入長長的網址。只要在你使用者名稱目錄下找到一個目錄“websites”進入雙擊index.html檔案就可以瀏覽了,開啟還需要點選一下連結就是你要瀏覽的內容。輕而易舉的抓取一個web站點