1. 程式人生 > >jsoup:解析HTML用法小結

jsoup:解析HTML用法小結

1.解析方式 

(1)從字串解析 

<span style="font-size:18px;">String html = "<html><head><title>First parse</title></head>
<body><p>Parse HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);</span>
(2)從URL獲取解析
<span style="font-size:18px;">Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();</span>
<span style="font-size:18px;">Document doc = Jsoup.connect("http://example.com").data("query","Java")
 .userAgent("Mozilla").cookie("auth","token")
 .timeout(3000).post();</span>
(3)從檔案解析
File input = new File("/tmp/input.html");
 Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
2.DOM方式遍歷元素

(1)搜尋元素

<span style="font-size:18px;">getElementById(String id)
 getElementByTag(String tag)
 getElementByClass(String className)
 getElementByAttribute(String key)
 siblingElements(),
 firstElementSibling(), 
 lastElementSibling(), 
 nextElementSibling(), 
 previousElementSibling()
 parent(),
 children(), 
 child(int index)</span>
(2)獲取元素資料
 <span style="font-size:18px;">attr(String key) – 獲取key屬性
 attributes() – 獲取屬性
 id(),
 className(), 
 classNames()
 text() – 獲取文字內容
 html() – 獲取元素內部HTML內容
 outerHtml() – 獲取包括此元素的HTML內容
 data()  – 獲取<srcipt>或<style>標籤中的內容
 tag(),
 tagName()</span>
3.選擇器語法(jsoup與其他解析器的區別就是可以使用類似jquery的選擇器語法來搜尋及過濾出所需的元素)

(1)基本選擇器

<span style="font-size:18px;"> #id: 搜尋有指定id的元素
 .class: 搜尋有指定class的元素
 [attribute]: 搜尋有attrribute屬性的元素
 [^attri]: 搜尋有以attri開頭的屬性的元素
 [attr=value]: 搜尋有指定屬性及其屬性值的元素
 [attr^=value],
 [attr$=value], [attr*=value]: 搜尋有指定attr屬性,且其屬性值是以value開頭、結尾或包括value的元素,如[href*=/path/]
 [attr~=regex]: 搜尋有指定attr屬性,且其屬性值符合regex正則表示式的元素
 *: 搜尋所有元素</span>
(2)選擇器組合
<span style="font-size:18px;"> el#id: 同時指定標籤名稱和id
 el.class: 同時指定標籤名稱和class
 el[attr]: 同時指定標籤名稱和及其中所含屬性的名稱
 上述3項的任意組合,如a[href].highlight
 ancestor child: 包含,如div.content p,即搜尋<div class=”content”>下含有<p>標籤的元素
 ancestor > child: 直接包含,如div.content > p,即搜尋直屬<div class="content">節點下的<p>標籤元素;
 div.content > *,即搜尋<div class="content">下的所有元素
 siblingA + siblingB: 直接遍歷,如div.head + div,即搜尋<div class="head"><div>的元素,其中不再包含子元素
 siblingA ~ siblingX: 遍歷,如h1 ~ p,即<h1>下直接或間接有<p>的元素
 el, el, el: 組合多個選擇器,搜尋滿足其中一個選擇器的元素</span>
(3)偽選擇器(條件選擇器)
<span style="font-size:18px;">:lt(n): 搜尋n號元素之前的元素
 :gt(n): 搜尋n號元素之後的元素
 :eq(n): 搜尋n號元素
 :has(seletor): 搜尋符合指定選擇器的元素
 :not(seletor): 搜尋不符合指定選擇器的元素
 :contains(text): 搜尋包含指定文字的元素,區分大小寫
 :containsOwn(text): 搜尋直接指包含指定文字的元素
 :matches(regex): 搜尋符合指定正則表示式的元素
 :matchesOwn(regex): 搜尋本元素文字中符合指定正則表示式的元素
 注意:以上偽選擇器的索引中,第一個元素位於索引0,第二個元素位於索引1,……</span>
4.獲取元素的屬性、文字和HTML
<span style="font-size:18px;">獲取元素的屬性值:Node.attr(String key)
 獲取元素的文字,包括與其組合的子元素:Element.text()
 獲取HTML:Element.html()或Node.outerHtml()</span>
5.操作URL
 <span style="font-size:18px;">Element.attr("href") – 直接獲取URL
 Element.attr("abs:href")或Element.absUrl("href")  – 獲取完整URL。如果HTML是從檔案或字串解析過來的,需要呼叫Jsoup.setBaseUri(String baseUri)來指定基URL,否則獲取的完整URL只會是空字串</span>
6.測試例子
<span style="font-size:18px;">li[class=info] a[class=Author] - 空格前後表示包含關係,即表示li裡的a
 div[class=mod mod-main mod-lmain]:contains(教學反思) - div中包含"教學反思",適合同時有多個同名DIV的情況</span>
<span style="font-size:18px;"> /*
   previousSibling()獲取某標籤前面的程式碼
   nextSibling()獲取某標籤後的程式碼
 如:
 <form id=form1>
 第一名:Lily  <br/>  
 第二名:Tom   <br/>
 第三名:Peter <br/>
 </form>
 */
 Elements items = doc.select("form[id=form1]");
 Elements prevs = items.select("br");
 for(Element p : prevs){
    String prevStr = p.previousSibling().toString().trim());
 }</span>
<span style="font-size:18px;"> /*
 最常用的連結抓取
 */
 String itemTag = "div[class=mydiv]";
 String linkTag = "a"
 Elements items = doc.select(itemTag);
 Elements links = items.select(linkTag);
 for(Element l : links){ 
    String href = l.attr("abs:href");//完整Href
    String absHref = l.attr("href");//相對路徑
    String text = l.text();
    String title = l.attr("title");
 }</span>