Java爬蟲利器HTML解析工具-Jsoup

阿新 • • 發佈：2019-06-21

Jsoup簡介
　　
　　Java爬蟲解析HTML文件的工具有：htmlparser, Jsoup。本文將會詳細介紹Jsoup的使用方法，10分鐘搞定Java爬蟲HTML解析。
　　
　　Jsoup可以直接解析某個URL地址、HTML文字內容，它提供非常豐富的處理Dom樹的API。如果你使用過JQuery，那你一定會非常熟悉。
　　
　　Jsoup最強大的莫過於它的CSS選擇器支援了。比如：document.select("div.content > div#image > ul > li:eq(2)。
　　
　　包引入方法
　　
　　Maven
　　
　　新增下面的依賴宣告即可，最新版本是（1.12.1）
　　
　　<dependency>
　　
　　
　　
　　<groupId>org.jsoup</groupId>
　　
　　<artifactId>jsoup</artifactId>
　　
　　<version>1.11.3</version>
　　
　　</dependency>
　　
　　Gradle
　　
　　// jsoup HTML parser library @ https://jsoup.org/
　　
　　compile 'org.jsoup:jsoup:1.11.3'
　　
　　原始碼安裝
　　
　　當然也可以直接把jar包下載下來，下載地址：https://www.xgjrfwsc.cn jsoup.org/download
　　
　　# git獲取程式碼
　　
　　git clone https://www.yifayuLed.cn github.com/jhy/jsoup.git
　　
　　cd jsoup
　　
　　mvn install
　　
　　# 下載程式碼
　　
　　curl -Lo jsoup.zip https://github.com/jhy/jsoup/archive/master.zip
　　
　　unzip jsoup.zip
　　
　　cd jsoup-master
　　
　　mvn install
　　
　　Jsoup解析方法
　　
　　Jsoup支援四種方式解析Document，即可以輸入四種內容得到一個Document：
　　
　　解析字串
　　
　　解析body片段
　　
　　從一個URL解析
　　
　　從一個檔案解析
　　
　　字串解析示例
　　
　　字串中必須包含head和body元素。
　　
　　String html = "<html><head><title>First parse</title></head>"
　　
　　+ "<body><p>Parsed HTML into a doc.</p></

Java爬蟲利器HTML解析工具-Jsoup

Java爬蟲利器HTML解析工具-Jsoup

Java爬蟲系列三：使用Jsoup解析HTML

python網路爬蟲-複雜HTML解析

Java爬蟲學習:利用HttpClient和Jsoup庫實現簡單的Java爬蟲程式

C# HTML解析工具HtmlAgilityPack使用例項（二）--Web頁面

C# HTML解析工具HtmlAgilityPack使用簡介

[python爬蟲]對html解析讀取編碼格式，統一轉碼為utf-8

Java版ISO8583包解析工具

Java爬蟲入門簡介（三） —— Jsoup解析HTML頁面

java的jsoup介紹--java爬蟲與java解析html

Java 爬蟲工具Jsoup解析

C# 網絡爬蟲利器之Html Agility Pack如何快速實現解析Html

【java】webdriver selenium爬蟲html解析，class名有空格

Java網路爬蟲crawler4j學習筆記 SAX解析工具類

Java爬蟲（二）-- httpClient模擬Http請求+jsoup頁面解析

java中幾種解析html的工具

JSoup入門筆記--------java HTML 解析庫

.Net Core HTML解析利器之HtmlAgilityPack

爬蟲-----HTML解析

JSON 解析工具的封裝（FastJSON-->Java）

Java爬蟲利器HTML解析工具-Jsoup

相關推薦