Jsoup文件--提取資料(元素中提取屬性、文字和HTML)

阿新 • • 發佈：2018-12-13

元素中提取屬性、文字和HTML

問題

完成解析文件並找到一些元素後，想要從這些元素中獲取資料。

解決方案

獲取屬性值：使用Node.attr(String key)方法
獲取文字：使用Element.text()
獲取HTML：使用Element.html()，或合理使用Node.outerHtml()

String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "<a href="http://example.com"><b>example</b></a>"
String linkInnerH = link.html(); // "<b>example</b>"

描述

上述方法是獲取元素資料的核心方法，還有一些附加的方法：

Element.id()
Element.tagName()
Element.className()和Element.hasClass(String className) 所有這些訪問資料的方法都提供有相應的setter方法來改變資料。

其他參考選項

Jsoup文件--提取資料(元素中提取屬性、文字和HTML)

元素中提取屬性、文字和HTML 問題完成解析文件並找到一些元素後，想要從這些元素中獲取資料。解決方案獲取屬性值：使用Node.attr(String key)方法獲取文字：使用Element.text() 獲取HTML：使用Element.html()

Jsoup文件--修改資料(設定元素包含的HTML)

設定元素包含的HTML 問題需要修改一個元素的HTML內容。解決方案使用Element中HTML setter方法。 Element div = doc.select("div").first(); // <div></div> d

Jsoup文件--修改資料(設定屬性值)

設定屬性值問題解析完文件，在將其儲存到硬碟或作為HTTP響應傳送之前想要更改其中一些屬性值。解決方案使用設定屬性的方法Element.attr(String key, String value)，Elements.attr(String key, St

Jsoup文件--提取資料(使用選擇器語法查詢元素)

使用選擇器語法查詢元素問題想要使用類似於CSS或jQuery的選擇器語法查詢和操作元素。解決方案使用Element.select(String selector)和Elements.select(String selector)方法: File inpu

Jsoup文件--提取資料(使用DOM方法遍歷文件)

使用DOM方法遍歷文件問題想要從HTML文件中提取資料(通常是瞭解該HTML文件結構的)。解決方案在將HTML解析成Document後使用類似於操作DOM的方法。 File input = new File("/tmp/input.html"); Doc

手機接收到的PDF文件裏表格怎麽提取出來

.com 添加文件添加 RoCE 轉化 blog 轉換時間轉換文件管理很多時候我們需要用到PDF文件中的Excel表格，但是PDF文件有不可編輯性，所以想提取PDF文件中的Excel表格還是需要一番功夫的，其實大家可以試試用手機裏的文件轉換工具。今天小編就介紹一個簡

ElasticSearch 學習記錄之分散式文件儲存往ES中存資料和取資料的原理

分散式文件儲存 ES分散式特性遮蔽了分散式系統的複雜性叢集內的原理垂直擴容和水平擴容真正的擴容能力是來自於水平擴容–為叢集新增更多的節點，並且將負載壓力和穩定性分散到這些節點中 ES叢集特點一個叢集擁有相同

java中用jdom建立xml文件/將資料寫入XML中

1 import java.io.FileNotFoundException; 2 3 import java.io.FileOutputStream; 4 import java.io.IOException; 5 6 import org.jdom.Attribute; 7 imp

php中txt文件插入資料到伺服器

$mysql_server_name='127.0.0.1'; //改成自己的mysql資料庫伺服器 $mysql_username="root"; //改成自己的mysql資料庫使用者名稱 $mysql_password="root"; //改成自己的mysql資料庫密碼 $mysql_database

Mongodb的億萬級資料集合中提取欄位的所有不同值集合

對於網際網路公司來說，隨著業務的不斷髮展，後臺儲存的各種資料也會越來越多，在這篇文章中，簡單講述一下自己在工作過程中遇到的一個小的統計需求工作，希望對有需要的人有所幫助。需求：需要統計我們後臺資料庫

利用keras中image.ImageDataGenerator.flow_from_directory()實現從資料夾中提取圖片和進行簡單歸一化處理

keras中有很多封裝好的API可以幫助我們實現對圖片資料的讀取和處理。比如： keras.preprocessing.image.ImageDataGenerator.flow_from_dir

spring的xml中註冊bean的時候報錯1) 無法找到文件; 2) 無法讀取文件; 3) 文件的根元素不是

報錯內容： org.xml.sax.SAXParseException; lineNumber: 5; columnNumber: 72; schema_reference.4: 無法讀取方案文件 'http://www.springframework.org/schema/beans/spring-be

巧用Excel批量提取資料夾中所有檔名稱

在工作中，有時候，我們需要整理資料夾中的所有檔名稱，並羅列在一張表格中。天哪，我的資料夾中有上千個檔案，要我一個個的複製貼上嗎？太麻煩了吧？今天，跟著小編一起來探索一種巧妙的方法吧，提升百倍效率哦！ 1、首先我們開啟excel，點選“公式”選項卡，單擊“定義名稱”按鈕，彈出

提取資料夾中所有檔名（Windows）

在進行附加依賴項新增lib的時候，經常要提取lib資料夾中所有的.lib檔名。以下為一個很好的方法利用系統批處理檔案來進行檔名稱的提取。先在需要提取名稱的資料夾內新建一個文字文件（即.txt檔案）。開啟新件的文字文件，並輸入“DIR *.* /B &g

怎麽移動dwg文件查看器中的圖形位置

一張圖紙中包括圖形和文字，圖形可以讓讀者更加容易理解，而文字則是起到了一個解釋性的作用。在電腦中打開CAD圖紙，需要用到dwg文件查看器，制作過CAD的朋友們都知道CAD文件的格式是dwg格式。圖紙中的圖形有的時候不在適合位置，就需要把他移動到一個合適的位置上，那麽，如何移動呢，來看看具體的操作方法。

maven如何在web工程中將本地lib文件打包到war中

編譯打包 edi dir rec 三方 nbsp code sco conf 在某些項目中可能會出現需要引用第三方商業化SDK的場景，此類商業SDK可能並不會納入maven中心倉庫，所以在編譯打包過程中需要引用本地lib包。 1、引用本地jar包編譯 <depend

Java文件復制器（自己起的名字，主要用於數據搬遷，文件復制等中的使用）

mage tac 緩沖區 png 參考 sta 基類 ade 轉換　　學習Java在入門中期主要是通過api來學習，不要急慢慢來。分下下需求，我們需要將文件從一個文件復制到另一個文件夾中，這其中我們可以使用很多方法，但在Java中我常用到的是io（廢話

LAMP架構（apache訪問日誌不記錄靜態文件，靜態元素過期時間，apache日誌切割）

訪問日誌不記錄靜態文件靜態文件過期 apache日誌切割一、apache訪問日誌不訪問靜態文件瀏覽器打開後按f12會會出現一個界面，點network,會出現很多請求，訪問日誌裏會記載，有些靜態的圖片或者文件也會記載，太浪費磁盤空間和磁盤io。所以我們要讓日誌不記錄靜態文件[root@abc ~

文件安裝的2中方式

django style pos python set 執行下載 col 打開文件 1,通過pip安裝 pip install django這個是別人已經下載好django,放到某個地方,然後你直接安裝 2,通過源碼安裝 1,首先下載好文件 2,打開文件夾,執行

python 保存文件時候, 去除名字中的非法字符

comm turn itl port plain return pytho number valid import re def validateTitle(title): rstr = r"[\/\\\:\*\?\"\<\>\|]" # ‘/

Jsoup文件--提取資料(元素中提取屬性、文字和HTML)

元素中提取屬性、文字和HTML

問題

解決方案

描述

其他參考選項

相關推薦