1. 程式人生 > 其它 >jsoup 獲取html中body內容_使用 Jsoup 解析 HTML 文字內容

jsoup 獲取html中body內容_使用 Jsoup 解析 HTML 文字內容

技術標籤:jsoup 獲取html中body內容

jsoup:Java HTML解析器。
它是一個用於處理實際 HTML 的 Java 庫。它使用 HTML5 最佳 DOM 方法和 CSS 選擇器,為獲取 URL 以及提取和處理資料提供了非常方便的 API,在 web 開發中,可以用來解析富文字內容或者在爬蟲抓取網頁資料時候解析網頁內容,等等都可以用到,在此記錄下。

jsoup實現WHATWG HTML5規範,並將HTML解析為與現代瀏覽器相同的DOM。

  • 從URL,檔案或字串中抓取並解析 HTML
  • 使用DOM遍歷或CSS選擇器查詢和提取資料
  • 處理 HTML元素,屬性和文字
  • 根據安全的白名單清除使用者提交的內容,以防止XSS攻擊
  • 輸出整潔的HTML

官網: https://jsoup.org/

1、引入 Jsoup 依賴

                <!-- 解析HTML -->
		<dependency>
		    <groupId>org.jsoup</groupId>
		    <artifactId>jsoup</artifactId>
		    <version>1.12.1</version>
		</dependency>

2、簡單使用示例

	public static void main(String[] args) {
		String text = Jsoup.parse("<p style='text-align: center;'><strong>測試Jsoup,正在測試。</strong></p>").text();
		System.out.println(text);
	}

3、輸出結果

解析成功輸出文字內容如下

5971d7c5f55ddb854b3321ba01ba9c59.png

碼字不易,轉載請註明出處。