輕而易舉的抓取一個ｗｅｂ站點

阿新 • • 發佈：2018-11-26

　　今天一位網友突然在deepin群裡問怎麼抓取一個站點。他自己用的wget嘗試了一下，太繁瑣。失敗了。有網友建議他學習爬蟲技術的，也有說右鍵儲存的，直到有個網友提到了webhttrack這個工具。
　webhttrack這個工具算是一個簡單的，只需要點選幾個按鈕就能抓取整個站點的工具。簡單又好用。本來是不打算寫博的，無奈那位網友又沒解決。隨寫部落格以示之。
webhttrack這個工具在deepin的官方源裡面就有，所以不必下載deb包，也不需要新增源或者下載原始碼編譯安裝。我能確定的是在ubuntu的官方源裡也有。其他的Ｌｉｎｕｘ發行版使用者可以嘗試一下官方源，官方源沒有再去webhttrack的官網去下載相應的軟體包安裝吧。下面是ｄｅｅｐｉｎ下的安裝方式：

 $ sudo apt-get install webhttrack
 安裝完直接在終端下執行就行了：
 $ webhttrack
 然後會啟動一個瀏覽器引導著你一步一步完成一個網站的抓取。１、２、３……ｓｔｅｐ　ｂｙ　ｓｔｅｐ超級簡單。
 下面以一個例項來展示一下webhttrack的應用。我們以抓取菜鳥網中的一個ｃ＋＋學習部分內容為例來展開。

$ webhttrack　啟動webhttrack
webhttrack會自動啟動瀏覽器出現引導介面。如圖：

直接點選“next”進入下一步。
３.在這一步裡會出現選擇工程名稱和儲存路徑的選擇。由於是第一次操作不會有現有工程名供選擇也不會有次級Project category供選擇。什麼意思呢？意思是你只要用過一次，下一次操作你可以選擇上一次的工程名稱及次級名稱會在下拉列表顯示。這裡直接取名：“菜鳥教程網”，Project category就取名ｃ＋＋吧。儲存路徑預設就行。然後“next”。由於我做過了，名稱就不在圖片輸入了，請讀者自行輸入。附圖：

４. 到這一步直接輸入ＵＲＬ就行。操作專案列表其實就是個篩選，你可以下載整個網站或者下載個別檔案等等。你甚至可以輸入多個ｕｒｌ下載，只需編輯多個ＵＲＬ為ｔｘｔ文字檔案匯入就行。“選項”按鈕的設定其實也是一個篩選，是一個更高階的全面的篩選。如果需要的話。預設我們只輸入ｕｒｌ來抓取我們需要的ｃ＋＋教程部分;http://www.runoob.com/cplusplus/cpp-tutorial.html 點選“next”下一步。附圖：
５. 這一步就自動化進行了，你可以人為忽略其中的某些部分，也可以隨時終止。附圖:
最後一步，“站點映象完畢！”在點選“退出”之前你可以選擇“檢視日誌”或“瀏覽已映象的網站”。退出以後也可已瀏覽，不必輸入長長的網址。只要在你使用者名稱目錄下找到一個目錄“websites”進入雙擊index.html檔案就可以瀏覽了，開啟還需要點選一下連結就是你要瀏覽的內容。

輕而易舉的抓取一個ｗｅｂ站點

輕而易舉的抓取一個ｗｅｂ站點

PHP如何抓取一個網址中的內容？

一個站點的誕生02--用Scrapy抓取數據

每天一個liunx命令3之awk實現文本文件的抓取

無比強大！Python抓取cssmoban站點的模版並下載

Python 一個抓取糗百的段子的小程序

python 抓取"一個"網站文章信息放入數據庫

Web站點抓取工具webhttrack

1 首先分析Fiddler抓取的一個Androi禁給中國人提供飲料

一個簡書的爬蟲，可以設定頁碼，抓取文章標題、簡介以及連結

Node 批量抓取並下載某站點的圖片

java爬蟲入門——從一個網頁抓取原始碼

第一個Python爬蟲-抓取煎蛋網上圖片

一個簡單的網頁抓取工具

自動抓取並解析一個商品頁

Sql Server儲存過程從一個表中抓取資料填充到另一張表中

.Net生成站點sitemap供百度抓取的類和使用

一個簡單的Jsoup抓取頁面資訊的例子

qq群裡分享的一個不錯的curl多執行緒處理抓取網頁資訊類

最近有些無聊寫了一個抓取github的ss賬號的東西

輕而易舉的抓取一個ｗｅｂ站點

相關推薦