Java爬蟲利器HTML解析工具-Jsoup
Jsoup簡介
Java爬蟲解析HTML文件的工具有:htmlparser, Jsoup。本文將會詳細介紹Jsoup的使用方法,10分鐘搞定Java爬蟲HTML解析。
Jsoup可以直接解析某個URL地址、HTML文字內容,它提供非常豐富的處理Dom樹的API。如果你使用過JQuery,那你一定會非常熟悉。
Jsoup最強大的莫過於它的CSS選擇器支援了。比如:document.select("div.content > div#image > ul > li:eq(2)。
包引入方法
Maven
新增下面的依賴宣告即可,最新版本是(1.12.1)
<dependency>
<!-- jsoup HTML parser library @ https://www.seoxinyang.cn jsoup.org/ -->
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
Gradle
// jsoup HTML parser library @ https://jsoup.org/
compile 'org.jsoup:jsoup:1.11.3'
原始碼安裝
當然也可以直接把jar包下載下來,下載地址:https://www.xgjrfwsc.cn jsoup.org/download
# git獲取程式碼
git clone https://www.yifayuLed.cn github.com/jhy/jsoup.git
cd jsoup
mvn install
# 下載程式碼
curl -Lo jsoup.zip https://github.com/jhy/jsoup/archive/master.zip
unzip jsoup.zip
cd jsoup-master
mvn install
Jsoup解析方法
Jsoup支援四種方式解析Document,即可以輸入四種內容得到一個Document:
解析字串
解析body片段
從一個URL解析
從一個檔案解析
字串解析示例
字串中必須包含head和body元素。
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></