jsoup:解析HTML用法小結

阿新 • • 發佈：2019-01-24

1.解析方式

（1）從字串解析

<span style="font-size:18px;">String html = "<html><head><title>First parse</title></head>
<body><p>Parse HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);</span>

（2）從URL獲取解析

<span style="font-size:18px;">Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();</span>

<span style="font-size:18px;">Document doc = Jsoup.connect("http://example.com").data("query","Java")
 .userAgent("Mozilla").cookie("auth","token")
 .timeout(3000).post();</span>

（3）從檔案解析

File input = new File("/tmp/input.html");
 Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

2.DOM方式遍歷元素

（1）搜尋元素

<span style="font-size:18px;">getElementById(String id)
 getElementByTag(String tag)
 getElementByClass(String className)
 getElementByAttribute(String key)
 siblingElements(),
 firstElementSibling(), 
 lastElementSibling(), 
 nextElementSibling(), 
 previousElementSibling()
 parent(),
 children(), 
 child(int index)</span>

（2）獲取元素資料

 <span style="font-size:18px;">attr(String key) – 獲取key屬性
 attributes() – 獲取屬性
 id(),
 className(), 
 classNames()
 text() – 獲取文字內容
 html() – 獲取元素內部HTML內容
 outerHtml() – 獲取包括此元素的HTML內容
 data()  – 獲取<srcipt>或<style>標籤中的內容
 tag(),
 tagName()</span>

3.選擇器語法（jsoup與其他解析器的區別就是可以使用類似jquery的選擇器語法來搜尋及過濾出所需的元素）

（1）基本選擇器

<span style="font-size:18px;"> #id: 搜尋有指定id的元素
 .class: 搜尋有指定class的元素
 [attribute]: 搜尋有attrribute屬性的元素
 [^attri]: 搜尋有以attri開頭的屬性的元素
 [attr=value]: 搜尋有指定屬性及其屬性值的元素
 [attr^=value],
 [attr$=value], [attr*=value]: 搜尋有指定attr屬性，且其屬性值是以value開頭、結尾或包括value的元素，如[href*=/path/]
 [attr~=regex]: 搜尋有指定attr屬性，且其屬性值符合regex正則表示式的元素
 *: 搜尋所有元素</span>

（2）選擇器組合

<span style="font-size:18px;"> el#id: 同時指定標籤名稱和id
 el.class: 同時指定標籤名稱和class
 el[attr]: 同時指定標籤名稱和及其中所含屬性的名稱
 上述3項的任意組合，如a[href].highlight
 ancestor child: 包含，如div.content p，即搜尋<div class=”content”>下含有<p>標籤的元素
 ancestor > child: 直接包含，如div.content > p，即搜尋直屬<div class="content">節點下的<p>標籤元素；
 div.content > *，即搜尋<div class="content">下的所有元素
 siblingA + siblingB: 直接遍歷，如div.head + div，即搜尋<div class="head"><div>的元素，其中不再包含子元素
 siblingA ~ siblingX: 遍歷，如h1 ~ p，即<h1>下直接或間接有<p>的元素
 el, el, el: 組合多個選擇器，搜尋滿足其中一個選擇器的元素</span>

（3）偽選擇器（條件選擇器）

<span style="font-size:18px;">:lt(n): 搜尋n號元素之前的元素
 :gt(n): 搜尋n號元素之後的元素
 :eq(n): 搜尋n號元素
 :has(seletor): 搜尋符合指定選擇器的元素
 :not(seletor): 搜尋不符合指定選擇器的元素
 :contains(text): 搜尋包含指定文字的元素，區分大小寫
 :containsOwn(text): 搜尋直接指包含指定文字的元素
 :matches(regex): 搜尋符合指定正則表示式的元素
 :matchesOwn(regex): 搜尋本元素文字中符合指定正則表示式的元素
 注意：以上偽選擇器的索引中，第一個元素位於索引0，第二個元素位於索引1，……</span>

4.獲取元素的屬性、文字和HTML

<span style="font-size:18px;">獲取元素的屬性值：Node.attr(String key)
 獲取元素的文字，包括與其組合的子元素：Element.text()
 獲取HTML：Element.html()或Node.outerHtml()</span>

5.操作URL

 <span style="font-size:18px;">Element.attr("href") – 直接獲取URL
 Element.attr("abs:href")或Element.absUrl("href")  – 獲取完整URL。如果HTML是從檔案或字串解析過來的，需要呼叫Jsoup.setBaseUri(String baseUri)來指定基URL，否則獲取的完整URL只會是空字串</span>

6.測試例子

<span style="font-size:18px;">li[class=info] a[class=Author] - 空格前後表示包含關係，即表示li裡的a
 div[class=mod mod-main mod-lmain]:contains(教學反思) - div中包含"教學反思"，適合同時有多個同名DIV的情況</span>

<span style="font-size:18px;"> /*
   previousSibling()獲取某標籤前面的程式碼
   nextSibling()獲取某標籤後的程式碼
 如：
 <form id=form1>
 第一名：Lily  <br/>  
 第二名：Tom   <br/>
 第三名：Peter <br/>
 </form>
 */
 Elements items = doc.select("form[id=form1]");
 Elements prevs = items.select("br");
 for(Element p : prevs){
    String prevStr = p.previousSibling().toString().trim());
 }</span>

<span style="font-size:18px;"> /*
 最常用的連結抓取
 */
 String itemTag = "div[class=mydiv]";
 String linkTag = "a"
 Elements items = doc.select(itemTag);
 Elements links = items.select(linkTag);
 for(Element l : links){ 
    String href = l.attr("abs:href");//完整Href
    String absHref = l.attr("href");//相對路徑
    String text = l.text();
    String title = l.attr("title");
 }</span>

jsoup:解析HTML用法小結

1.解析方式（1）從字串解析 <span style="font-size:18px;">String html = "<html><head><title>First parse</title></h

通過使用jsoup解析html,繪畫表格生成execl文件

num group wid 字符 for format 格式 colspan tables 1.獲取文件或者字符設置繪畫表格字符編碼 //得到Document並且設置編碼格式 public static Document getDoc(String fileNam

【轉載儲存】Jsoup解析html常用方法

首先我們要清楚 class的繼承關係 Document 繼承於 Element 繼承於 Node 繼承於 Object 首先我們先研究一下 Element 中的函式作用: 01 addClass(String className)

使用JSOUP解析HTML文件

這篇文章主要介紹了Jsoup如何解析一個HTML文件、從檔案載入文件、從URL載入Document等方法，對Jsoup常用方法做了詳細講解，最近提供了一個示例供大家參考使用DOM方法來遍歷一個文件從元素抽取屬性，文字和HTML 獲取所有連結解析和遍歷一個H

Jsoup—解析HTML頁面資料的工具

原文地址！尊重原創！介紹： GitHub原始碼點選檢視程式碼jar包點選下載 Jsoup是一款比較好的Java版HTML解析器。可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CS

爬蟲基礎之Jsoup解析HTML

Jsoup的Maven座標 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1

Android中利用jsoup解析html頁面

學習jsoup :jsoup學習網站 Android 中使用: 新增依賴 implementation 'org.jsoup:jsoup:1.10.1' 直接上程式碼: package com.loaderman.jsoupdemo; import android.

利用jsoup解析html

1、jsoup簡介 jsoup 是一款 Java的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。jsoup 的主要功能如下：（1）從一個 UR

關於利用Jsoup解析HTML中；變成非傳統空格或亂碼問題解決方法

在寫爬蟲的時候很多時候會遇到這種問題：HTML中原始碼顯示&nbsp；沒問題，但是利用Jsoup的text（）方法獲取的文字就會出現問題，一般情況是&nbsp；變成非傳統空格或者亂碼，這樣在解析的時候想切分字串會無法成功。因為&nbsp；是ISO-8

手把手教學 Android用jsoup解析html

1.jsoup介紹很多時候，我們需要從各種網頁上面抓取資料，而jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。 2.使用場景下面是一張關於美食的截圖，可以留意到

Android利用Jsoup解析html 開發網站客戶端小記。

這些天業餘時間比較多，閒來無事，想起了以前看過開發任意網站客戶端的一篇文章，就是利用jsoup解析網站網頁，通過標籤獲取想要的內容。好了廢話不多說，用到的工具為 jsoup-1.7.2.jar包，具體jsoup的相關文件，請去這邊看http://jsoup.org/，這裡有全部Api可以查詢。這裡解析的網

使用Jsoup解析Html == TextView顯示html圖片的方法

想要做一個看新聞的應用，類似Cnbeta客戶端的東西。大致思路如下：根據連結獲取新聞列表頁的html程式碼，然後解析，找到所有的新聞標題和新聞連結用listView顯示，當點選ListView的Item再載入相應的新聞內容。其中獲取html程式碼，可以使用如下程式碼

Jsoup學習筆記2：Jsoup解析HTML程式碼標籤與屬性

接著上一篇的Jsoup學習筆記1繼續學習，雖然是轉載自上面連結的文章，但是程式做了一點改動，方便自己以後的檢視 package com.daxiang.myjsoup; import org.jsoup.Jsoup; import org.jsoup.nodes.D

Java爬蟲入門簡介（三） —— Jsoup解析HTML頁面

上一篇部落格我們已經介紹瞭如何使用HttpClient模擬客戶端請求頁面了。這一篇部落格我們將描述如何解析獲取到的頁面內容。上一節我們獲取了 http://www.datalearner.com/blog_list 頁面的HTML原始碼，但是這些原始碼是提供給瀏覽器解析用的，

Java使用Jsoup解析Html中標籤，新增屬性。

設定Html中標籤屬性的值問題為java生成的html檔案mate標籤新增屬性charset=”utf-8”。方法可以使用屬性設定方法 Element.attr(String key, String value), 和 Elements.at

Jsoup解析Html（一）

現在網上流行了一種自由開發者的風氣；就是自己私下寫一個簡易的app上傳到github上；可以以此專案作為開源；同時熟悉git操作；但是很多時候我們都需要一些資料來呈現在app中；如圖片列表，如文字+圖片列表；網上有很多開放式的api可以呼叫，如百度api、http:

Android通過Jsoup解析Html原始碼

WebViewClient的作用就是幫助WebView處理各種通知、請求事件的，onPageFinished顧名思義在頁面載入完成後進行的操作，通過javascript語法獲取的內容，通過local_obj呼叫InJavaScriptLocalObj中的showSource()方法

我的Android筆記（八）—— 使用Jsoup解析Html

想要做一個看新聞的應用，類似Cnbeta客戶端的東西。大致思路如下：根據連結獲取新聞列表頁的html程式碼，然後解析，找到所有的新聞標題和新聞連結用listView顯示，當點選ListView的Ite

Jsoup解析HTML例項及文件方法詳解

msOfficeUtils.createNewDocument(); msOfficeUtils.insertText("測試訊息"); msOfficeUtils.copy(); msOfficeUtils.close(); msOfficeUtils.quit(); Jacob在sourceforge

Java爬蟲系列三：使用Jsoup解析HTML

在上一篇隨筆《Java爬蟲系列二：使用HttpClient抓取頁面HTML》中介紹了怎麼使用HttpClient進行爬蟲的第一步--抓取頁面html，今天接著來看下爬蟲的第二步--解析抓取到的html。有請第二步的主角：Jsoup粉墨登場。下面我們把舞臺交給Jsoup，讓他完成本文剩下的內容。 ====

jsoup:解析HTML用法小結

相關推薦