HtmlParser 一個不錯的網站爬蟲工具

阿新 • • 發佈：2019-01-03

有時候我們需要在網上獲取自己需要的內容時，而且需求量達到一定程度時，就要通過程式碼來實現重複的操作。

當用Java來幫我們解決這個問題時，我們又如何通過Java來過濾掉多餘的內容，剩餘自己想要的資訊呢，這時HtmlParser會是一個不錯的選擇。

HtmlParser是一個用java語言寫的，用來解析html檔案（網頁）的應用庫，主要的作用就是做網頁的資訊提取。

HtmlParser提供了許多的過濾器給我們選擇，而且使用它只需要下載一個jar包，然後向專案匯入jar包就可以引用了。

在這裡，筆者使用幾個比較常用的過濾器來做網頁提取。

首先，我們需要下載HtmlParser的jar包，下載地址：

點選開啟連結

我們選擇最新的1.6的版本，下載完後，解壓壓縮包，到htmlparser1_6\lib目錄下，複製htmlParser.jar檔案然後貼上到你的專案裡面，跟著下面步驟操作。

然後，我們就要用htmlparser來為我們提取我們需要的資訊

第一種過濾器：LinkStringFilter

（LinkStringFilter(String 屬性值)過濾器是根據href連線屬性中是否含屬性值欄位來篩選）

場景：

估計大家都不會討厭看電影的，那麼就先來獲取電影的下載連結

（有些人也許會感覺納悶，直接點選連結不就可以了嗎，但當你要獲取1000個電影的連線時，你就不會這麼覺得了）

抓取程式碼並不是這麼容易的，要在網頁的原始碼找到我們需要的資訊（也就是下載地址），然後找到這個資訊特別的地方，然後利用合適的過濾器去抓取。

下面用程式碼來獲取電影的下載地址（部分程式碼會有提示）：

/**
	 * 功能：通過電影的介紹地址來獲取下載地址
	 * @param movieIntroUrl：電影的介紹地址
	 * @return 返回電影的下載地址
	 */
	public static String getDownloadUrl(String movieIntroUrl) {
		String downloadUrl="";
		try {
			Parser parser=new Parser(movieIntroUrl);
			//通過Parser來對Url建立連線，獲取該html的內容
			parser.setEncoding("GBK");
			//設定編碼格式
			NodeList list=(NodeList) parser.extractAllNodesThatMatch(new LinkStringFilter("ftp"));
			//parser.extractAllNodesThatMatch是一個html文字過濾選擇器，返回型別是NodeList
			//extractAllNodesThatMatch(new 過濾器型別)
			//LinkStringFilter(String 屬性值)過濾器是根據href連線屬性中是否含屬性值欄位來篩選
			for(int i=0;i<list.size();i++){
				//遍歷集合裡面的元素
				LinkTag lt=(LinkTag) list.elementAt(i);
				//把list裡面的元素轉成LinkTag型別的物件來傳遞資訊
				downloadUrl=lt.getLink();
				//通過LinkTag物件的getLink()方法獲取抓取的資訊
			}

System.out.println(downloadUrl);
		} catch (ParserException e) {
			e.printStackTrace();
		}
		return downloadUrl;
	}

程式碼本身是不多的，只是註釋有點多。然後我們來拷貝這個網頁的ip地址，執行一下這個方法。

public static void main(String[] args) {
		getDownloadUrl("http://www.dytt8.net/html/gndy/dyzz/20161230/52841.html");
	}

第二種過濾器：HasAttributeFilter

（HasAttributeFilter(String 屬性名,String 屬性值)根據對應的屬性名是否存在這樣的屬性值查詢元素）

這個過濾器的功能強大一些，但是有一些地方需要注意，不是包含屬性值，只能找到完全相等的屬性值的元素

場景：

有些網頁有許多部電影，如果你想把這些電影的下載地址全部獲取，怎麼辦？

點選這些連結，只是進去電影的介紹介面，裡面才有我們要的下載地址，也就是一個電影至少要點選兩次才能下載電影，重複的事情讓程式碼幫我們去完成吧。

分析：首先我們要進入每個電影的介紹介面才能獲取電影的下載地址，那麼我們就要把它們的介紹地址全部拿過來，然後再迴圈進入到這些介紹介面獲取我們最愛的下載地址。檢視網頁的原始碼尋找一些這些連結的規律。

下面來獲取電影的介紹地址（部分程式碼有提示）：

/**
	 * 功能：獲取一個分頁裡面的所有電影的介紹地址
	 * @param pageListUrl 分頁的地址
	 * @return	返回一個String[]用於儲存這個分頁的所有的電影的介紹地址
	 */
	public static String[] getIntroUrlFromPageList(String pageListUrl) {
		String movieIntroUrl[]=new String[25];
		//定義String陣列，儲存介紹地址，注意長度一定要剛剛好，否則會出現錯誤
		try {
			Parser parser=new Parser(pageListUrl);
			parser.setEncoding("GBK");
			NodeList list=(NodeList)parser.extractAllNodesThatMatch(new HasAttributeFilter("class","ulink"));
			//HasAttributeFilter(String 屬性名,String 屬性值)根據對應的屬性名是否存在這樣的屬性值查詢元素
			//注意不是包含屬性值，只能找到完全相等屬性值的元素
			for(int i=0;i<list.size();i++){
				LinkTag lt=(LinkTag) list.elementAt(i);
				movieIntroUrl[i]="http://www.ygdy8.net"+lt.getLink();
			}
		} catch (ParserException e) {
			e.printStackTrace();
		}
		return movieIntroUrl;
	}

接著我們來獲取這些電影介紹地址裡面的下載地址：

public static void main(String[] args) {
		String introUrl[]=new String[25];
		introUrl=getIntroUrlFromPageList("http://www.ygdy8.net/html/gndy/dyzz/index.html");
		for (int i = 0; i < introUrl.length; i++) {
			String downloadUrl=getDownloadUrl(introUrl[i]);

		}
	}

第三種過濾器：TagNameFilter

（TagNameFilter(String 標籤名)，根據標籤名來查詢對應的元素）

這個過濾器一般結合其他過濾器來使用，單獨使用的查詢效果很低，這裡就不作範例了。

其他過濾器的使用方法與使用效果可以去檢視htmlparser的API文件：點選開啟連結

HtmlParser 一個不錯的網站爬蟲工具

有時候我們需要在網上獲取自己需要的內容時，而且需求量達到一定程度時，就要通過程式碼來實現重複的操作。當用Java來幫我們解決這個問題時，我們又如何通過Java來過濾掉多餘的內容，剩餘自己想要的資訊呢，這時HtmlParser會是一個不錯的選擇。 HtmlParser是一個

網站爬蟲工具

Teleport Ultra所能做的，不僅僅是離線瀏覽某個網頁(讓你離線快速瀏覽某個網頁的內容當然是它的一項重要功能)，它可以從Internet的任何地方抓回你想要的任何檔案，它可以在你指定的時間自動登入到你指定的網站下載你指定的內容，你還可以用它來建立某個網站的完整的鏡象

一步步教你如何打造一個網站克隆工具仿站

obj cell ins 地址 line load mail als () 前兩天朋友叫我模仿一個網站，剛剛開始，我一個頁面一個頁面查看源碼並復制和保存，花了我很多時間，一個字“累”，為了減輕工作量，我寫了個網站“克隆工具”，一鍵克隆，比起人工操作，效率提高了200%以上

安利一個輕量級爬蟲工具node-crawler

地址實質爬蟲無非就是分析網頁, 分析介面, 取得你想要的資料, 取得資料有兩種方式: 對於直接請求得到的是靜態頁面, 直接分析 html, 取得自己需要的資料還有就是通過 api 介面獲取到的

一個不錯的 png壓縮工具 pngquant 使用介紹批量壓縮png

1.Png 簡單介紹。我們知道Png 有4個通道，RGBA，多了一個表示透明的。png 有 png 32, 24, 8 等。大致我理解的是表示顏色的多少。數字越小，檔案就越小。常見的壓縮方式是匯入一張圖到做圖軟體中，然後匯出png 8，並且帶 alpha，這樣就達

設計一個購物網站大概需要多少錢？

設計一個購物網站大概需要多少錢？設計一個購物網站大概需要多少錢？

自己打造了一個簡單的站長工具

spl logs images fan net ref 分享 style image 自己打造了一個簡單的站長工具　　站長工具：www.fanguzai.net/ 自己打造了一個簡單的站長工具

為什麽有的公司做一個企業網站那麽貴

或許正在準備做網站的您會問：“為什麽有的公司做一個企業網站那麽貴?” 由於現在做互聯網建設的公司眾多，市場混亂，不同的公司給客戶開出的價格差別幾千元，甚至上萬元!例如，在網站建設公司中有的企業站報價只要幾百元，有的公司報價3千起，還有一些公司報價1萬起!那麽他們差別在哪裏呢? 我

六招助你快速建設一個優秀網站

怎樣建網站網站建設站長都知道一個優秀的網站對網站的影響有多重要，不僅可以為用戶帶來驚喜，還可以給網站帶來意想不到的收獲。而要建一個優秀的網站該怎樣建網站，一般有哪些步驟呢？下面就一起來分析一下。第一、對網站的目的定位要清晰。對於網站目的的定位，每個人都不一樣的看法，但是從整體上來說，網站建

一個不錯的免費流程圖制作軟件 Download link

you process nbsp rod com flow soft rda cts The process flow software you saw yesterday which is a free software, but you need to register

如何編寫一個SQL註入工具

input 簡單 0x03 http images 構造 config dal nio 0x01 前言　　一直在思考如何編寫一個自動化註入工具，這款工具不用太復雜，但是可以用最簡單、最直接的方式來獲取數據庫信息，根據自定義構造的payload來繞過防護，這樣子就可以。

建設一個新網站需要這六個步驟

網頁制作如何創建網站無論是工作還是生活，做任何事情都需要做好一個規劃，新網頁制作也一樣需要做好規劃，而且規劃對於網站建設來說非常重要，只要做好了所有的準備工作，網頁制作才會事半功倍。如何創建網站，才可以幫助網站快速提升排名，並且產生更高的價值，還可以體現出網站建設的意義。那麽網站建設一般都有

分享一個串口測試工具

分享計算 tar 技術字符地址自動 img target 串口調試工具很多，但是功能穩定、全面的不多，這個是自己在開發中的一個副產品。功能特點： 1、自動加載設備的串口號，比好多寫死1-10或1-50的亂碰模式好的了。系統有什麽串口就顯示什麽串口，容易選擇

13個優秀的網站檢測工具推薦

ntc tk1 collect ota 網站 www. .html coo html5 html5%E5%BC%80%E5%8F%91%E4%B8%AD%E7%9A%84%E5%AE%89%E5%85%A8%E9%A3%8E%E9%99%A9 http://www.zcoo

如何搭建一個web網站（一）

團隊合作是的轉換們的 web服務 ons lang 用戶域名前言：由於新生軍訓結束，作為學生會的一個技術部的老油條，這時候得幫幫他們了。大多數新生都是奔著能做一些小東西，能夠被大家，被其他人用，為目的進入了技術部，部門主要負責做院系微信運營，順帶做開發。前兩任

【轉】使用webmagic搭建一個簡單的爬蟲

class 直接了解 pid 個數粘貼 body 教程相關配置【轉】使用webmagic搭建一個簡單的爬蟲剛剛接觸爬蟲，聽說webmagic很不錯，於是就了解了一下。 webmagic的是一個無須配置、便於二次開發的爬蟲框架，它提供簡單靈活的API，只需少量代碼

開始你的第一個npm腳本工具

版本 ear cor git options 效率 lis logs prompt 在實際開發中，一般剛開始一個項目或者剛接手一個項目，我們會運行 npm install 下載安裝所有依賴，在實際開發中，可能也會使用各種命令行…… 來提高我們開發的效率。與它相處了這麽久

思考如何做一個普通網站和高並發的網站

node emca pos 冗余優勢純前端文件框架缺點寫寫總結一下，分別用C#和Java如何構建一個普通網站和一個高並發、安全的網站。構建一個普通網站的checklist:.net mvc：mvc+EF+mysqljava:主流仍然使用ssh2?純前端如no

linux中內核的一個不錯的參數somaxconn

print pac n) back cti blank cor imu 大小轉載自:點擊打開鏈接在linux中，/proc/sys/net/core/somaxconn這個參數，linux中內核的一個不錯的參數somaxconn 　　看下其解析：　

HtmlParser 一個不錯的網站爬蟲工具

相關推薦