1. 程式人生 > 其它 >Wget/httrack 爬取整站資源

Wget/httrack 爬取整站資源

wget 是一個從網路上自動下載檔案的自由工具,支援通過 HTTP、HTTPS、FTP 三個最常見的 TCP/IP協議 下載,並可以使用 HTTP 代理。”wget” 這個名稱來源於 “World Wide Web” 與 “get” 的結合。

yum install -y wget
wget -c -r -npH -k -nv http://www.baidu.com

引數說明

  • -c:斷點續傳
  • -r:遞迴下載
  • -np:遞迴下載時不搜尋上層目錄
  • -nv:顯示簡要資訊
  • -nd:遞迴下載時不建立一層一層的目錄,把所有檔案下載當前資料夾中
  • -p:下載網頁所需要的所有檔案(圖片,樣式,js檔案等)
  • -H:當遞迴時是轉到外部主機下載圖片或連結
  • -k:將絕對連結轉換為相對連結,這樣就可以在本地離線瀏覽網頁了
  • -L: 只擴充套件相對連線,該引數對於抓取指定站點很有用,可以避免向宿主主機
wget.exe -d -S -O - http://lyshark.com # 顯示請求和響應的headers
wget -c -r -npH -k -nv http://lyshark.com # 爬取整個頁面
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10"

HTTrack是一個免費並易於使用的線下瀏覽器工具,全稱是HTTrack Website Copier for Windows,它能夠讓你從網際網路上下載整個網站進行線下瀏覽。

yum install -y httrack
httrack "https://www.baidu.com" -o "/root" "+*.https://www.baidu.com*" -v

頁面渲染工具

#安裝所需要的包:
yum install -y yum-utils device-mapper-persistent-data lvm2
docker pull scrapinghub/splash
docker run -d -p 8050:8050 scrapinghub/splash
#通過瀏覽器訪問8050埠驗證安裝是否成功

文件轉自: https://www.cnblogs.com/LyShark/p/9063328.html