Jsoup文件--提取資料(使用DOM方法遍歷文件)

阿新 • • 發佈：2018-12-12

使用DOM方法遍歷文件

問題

想要從HTML文件中提取資料(通常是瞭解該HTML文件結構的)。

解決方案

在將HTML解析成Document後使用類似於操作DOM的方法。

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Element links = doc.getElementByTag("a");
for (Element link : links) {
	String linkHref = link.attr("href");
	String linkText = link.text();
}

描述

Elements物件提供一系列類似於操作DOM的方法來查詢元素、提取和操作其中的資料。DOM getters方法是上下文相關的，在父級DOM上呼叫可以獲取到文件下對應匹配的元素；在子級元素上呼叫可以獲取到子元素下的元素。可以通過這種方式篩選出想要的資料。

查詢元素：

getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key)(和相關的方法)
相鄰元素獲取：siblingElements()、firstElementSibling()

、lastElementSibling()、nextElementSibling()、previousElementSibling()
譜系：parent()、children()、child(int index)

操作元素中的資料

獲取屬性：attr(String key)；設定屬性：attr(String key, String value)
獲取所有屬性：attributes()
id()，className()，classNames()
獲取文字內容：text()；設定文字內容：text(String value)
獲取元素內HTML：html()；設定元素內HTML：html(String value)
獲取元素外部HTML：outerHtml()
獲取資料內容：data()(e.g. script和style標籤)
tag()、tagName()

操作HTML和文字內容

append(String html)、prepend(String html)
appendText(String text)、prependText(String text)
appendElementt(String tagName)、prependElement(String tagName)
html(String html)

Jsoup文件--提取資料(使用DOM方法遍歷文件)

使用DOM方法遍歷文件問題想要從HTML文件中提取資料(通常是瞭解該HTML文件結構的)。解決方案在將HTML解析成Document後使用類似於操作DOM的方法。 File input = new File("/tmp/input.html"); Doc

Jsoup文件--提取資料(使用選擇器語法查詢元素)

使用選擇器語法查詢元素問題想要使用類似於CSS或jQuery的選擇器語法查詢和操作元素。解決方案使用Element.select(String selector)和Elements.select(String selector)方法: File inpu

Jsoup文件--提取資料(元素中提取屬性、文字和HTML)

元素中提取屬性、文字和HTML 問題完成解析文件並找到一些元素後，想要從這些元素中獲取資料。解決方案獲取屬性值：使用Node.attr(String key)方法獲取文字：使用Element.text() 獲取HTML：使用Element.html()

使用DOM方法實現xml文件內容的解析與寫入

java中對xml文件的解析可以分為四種方式：DOM、JDOM、SAX、DOM4J這裡研究一下使用DOM方式進行xml文件的寫入和解析的方法。DOM解析XML文件時會遍歷整個XML文件，在記憶體中建立一個樹的資料結構。與JavaScript中DOM方法類似，我們可以通過get

python解析html提取資料，並生成word文件

今天試著用ptyhon做了一個抓取網頁內容，並生成word文件的功能，功能很簡單，做一下記錄以備以後用到。生成word用到了第三方元件python-docx，所以先進行第三方元件的安裝。由於windows下安裝的python預設不帶setuptools這個模組，所以要先安

遞歸遍歷文件夾、取所有文件。包括子目錄。

文件夾子目錄 tostring 遍歷 foreach ret ans 進行 urn private int count = 0; private int TransformFiles(string path) {

Cocos2dx 遍歷文件夾下所有的文件（草稿）

cmp add cto filename () lena tin s2d sdi 備份，怕忘了 static std::vector<string> getFilePathAtVec(string folderPath, int depth) {

os.path python使用遍歷文件夾文件

root 文件信息 lba arc 輸出 import nsh ive oot import os import os.path rootdir = “d:\data” # 指明被遍歷的文件夾 for p

利用glob()函數遍歷文件夾

nbsp glob func fun lob file cti bsp 調用 1 <?php 2 3 function getfiles($path){ 4 5 foreach( glob($path) as $afile ){ 6 7

Java文件操作（新建，遍歷，刪除）

div oid stack blog ace bytes except stat exception //創建文件 private static void createFile(File file){ try { if(!file.exists()

遍歷文件夾內所有文件

col del color list class files clas int plist File file = new File("文件夾路徑"); File[] tempList = file.listFiles()；for (int i = 0; i < t

JAVA 遍歷文件夾下的所有文件

with rip [] ring temp emp lin filelist 目錄 JAVA 遍歷文件夾下的所有文件(遞歸調用和非遞歸調用) 1.不使用遞歸的方法調用. public void traverseFolder1(String path) {

python 遍歷文件夾

sep begin ber -- .get 目錄文件不包含博客 links 參考博客：http://www.cnblogs.com/lincj/p/5617605.html 一、os.walk()　　　os.walk(top, topdown=True, onerro

cocos2d-x學習筆記（十二）cocos2dx 3.10添加lua LuaFileSystem庫遍歷文件

luafilesystem庫；lfs；遍歷文件在lua中遍歷目錄文件需要用到lfs庫，而所用的cocos2dx 3.10沒用lfs，需要自己添加1、下載lfs.c和lfs.hhttps://github.com/keplerproject/luafilesystem 從github獲取源碼，在src目錄拷貝l