四種XML解析方式詳解

阿新 • • 發佈：2019-01-26

一、介紹及優缺點分析

1. DOM（Document Object Model)

DOM是用與平臺和語言無關的方式表示XML文件的官方W3C標準。DOM是以層次結構組織的節點或資訊片斷的集合。這個層次結構允許開發人員在樹中尋找特定資訊。分析該結構通常需要載入整個文件和構造層次結構，然後才能做任何工作。由於它是基於資訊層次的，因而DOM被認為是基於樹或基於物件的。

【優點】
      ①允許應用程式對資料和結構做出更改。
      ②訪問是雙向的，可以在任何時候在樹中上下導航，獲取和操作任意部分的資料。
【缺點】
      ①通常需要載入整個XML文件來構造層次結構，消耗資源大。

2. SAX（Simple API for XML)

SAX處理的優點非常類似於流媒體的優點。分析能夠立即開始，而不是等待所有的資料被處理。而且，由於應用程式只是在讀取資料時檢查資料，因此不需要將資料儲存在記憶體中。這對於大型文件來說是個巨大的優點。事實上，應用程式甚至不必解析整個文件；它可以在某個條件得到滿足時停止解析。一般來說，SAX還比它的替代者DOM快許多。

選擇DOM還是選擇SAX？對於需要自己編寫程式碼來處理XML文件的開發人員來說，選擇DOM還是SAX解析模型是一個非常重要的設計決策。DOM採用建立樹形結構的方式訪問XML文件，而SAX採用的是事件模型

。

DOM解析器把XML文件轉化為一個包含其內容的樹，並可以對樹進行遍歷。用DOM解析模型的優點是程式設計容易，開發人員只需要呼叫建樹的指令，然後利用navigation APIs訪問所需的樹節點來完成任務。可以很容易的新增和修改樹中的元素。然而由於使用DOM解析器的時候需要處理整個XML文件，所以對效能和記憶體的要求比較高，尤其是遇到很大的XML檔案的時候。由於它的遍歷能力，DOM解析器常用於XML文件需要頻繁的改變的服務中。

SAX解析器採用了基於事件的模型，它在解析XML文件的時候可以觸發一系列的事件，當發現給定的tag的時候，它可以啟用一個回撥方法，告訴該方法制定的標籤已經找到。

SAX對記憶體的要求通常會比較低，因為它讓開發人員自己來決定所要處理的tag.特別是當開發人員只需要處理文件中所包含的部分資料時，SAX這種擴充套件能力得到了更好的體現。但用SAX解析器的時候編碼工作會比較困難，而且很難同時訪問同一個文件中的多處不同資料。

【優勢】
   ①不需要等待所有資料都被處理，分析就能立即開始。
   ②只在讀取資料時檢查資料，不需要儲存在記憶體中。
     ③可以在某個條件得到滿足時停止解析，不必解析整個文件。
   ④效率和效能較高，能解析大於系統記憶體的文件。

【缺點】
①需要應用程式自己負責TAG的處理邏輯（例如維護父/子關係等），文件越複雜程式就越複雜。
②單向導航，無法定位文件層次，很難同時訪問同一文件的不同部分資料，不支援XPath。

3. JDOM(Java-based Document Object Model)

JDOM的目的是成為Java特定文件模型，它簡化與XML的互動並且比使用DOM實現更快。由於是第一個Java特定模型，JDOM一直得到大力推廣和促進。正在考慮通過“Java規範請求JSR-102”將它最終用作“Java標準擴充套件”。從2000年初就已經開始了JDOM開發。

JDOM與DOM主要有兩方面不同。首先，JDOM僅使用具體類而不使用介面。這在某些方面簡化了API，但是也限制了靈活性。第二，API大量使用了Collections類，簡化了那些已經熟悉這些類的Java開發者的使用。

JDOM文件宣告其目的是“使用20%（或更少）的精力解決80%（或更多）Java/XML問題”（根據學習曲線假定為20%）。JDOM對於大多數Java/XML應用程式來說當然是有用的，並且大多數開發者發現API比DOM容易理解得多。JDOM還包括對程式行為的相當廣泛檢查以防止使用者做任何在XML中無意義的事。然而，它仍需要您充分理解XML以便做一些超出基本的工作（或者甚至理解某些情況下的錯誤）。這也許是比學習DOM或JDOM介面都更有意義的工作。

JDOM自身不包含解析器。它通常使用SAX2解析器來解析和驗證輸入XML文件（儘管它還可以將以前構造的DOM表示作為輸入）。它包含一些轉換器以將JDOM表示輸出成SAX2事件流、DOM模型或XML文字文件。JDOM是在Apache許可證變體下發布的開放原始碼。

【優點】
①使用具體類而不是介面，簡化了DOM的API。
②大量使用了Java集合類，方便了Java開發人員。

【缺點】
①沒有較好的靈活性。
②效能較差。

4. DOM4J(Document Object Model for Java)

雖然DOM4J代表了完全獨立的開發結果，但最初，它是JDOM的一種智慧分支。它合併了許多超出基本XML文件表示的功能，包括整合的XPath支援、XML Schema支援以及用於大文件或流化文件的基於事件的處理。它還提供了構建文件表示的選項，它通過DOM4J API和標準DOM介面具有並行訪問功能。從2000下半年開始，它就一直處於開發之中。

為支援所有這些功能，DOM4J使用介面和抽象基本類方法。DOM4J大量使用了API中的Collections類，但是在許多情況下，它還提供一些替代方法以允許更好的效能或更直接的編碼方法。直接好處是，雖然DOM4J付出了更復雜的API的代價，但是它提供了比JDOM大得多的靈活性。

在新增靈活性、XPath整合和對大文件處理的目標時，DOM4J的目標與JDOM是一樣的：針對Java開發者的易用性和直觀操作。它還致力於成為比JDOM更完整的解決方案，實現在本質上處理所有Java/XML問題的目標。在完成該目標時，它比JDOM更少強調防止不正確的應用程式行為。

DOM4J是一個非常非常優秀的Java XML API，具有效能優異、功能強大和極端易用使用的特點，同時它也是一個開放原始碼的軟體。如今你可以看到越來越多的Java軟體都在使用DOM4J來讀寫XML，特別值得一提的是連Sun的JAXM也在用DOM4J.

【優點】
     ①大量使用了Java集合類，方便Java開發人員，同時提供一些提高效能的替代方法。
   ②支援XPath。
   ③有很好的效能。

【缺點】
①大量使用了介面，API較為複雜。

二、比較

1. DOM4J效能最好，連Sun的JAXM也在用DOM4J。目前許多開源專案中大量採用DOM4J，例如大名鼎鼎的Hibernate也用DOM4J來讀取XML配置檔案。如果不考慮可移植性，那就採用DOM4J.

2. JDOM和DOM在效能測試時表現不佳，在測試10M文件時記憶體溢位，但可移植。在小文件情況下還值得考慮使用DOM和JDOM。雖然JDOM的開發者已經說明他們期望在正式發行版前專注效能問題，但是從效能觀點來看，它確實沒有值得推薦之處。另外，DOM仍是一個非常好的選擇。DOM實現廣泛應用於多種程式語言。它還是許多其它與XML相關的標準的基礎，因為它正式獲得W3C推薦（與基於非標準的Java模型相對），所以在某些型別的專案中可能也需要它（如在JavaScript中使用DOM）。

3. SAX表現較好，這要依賴於它特定的解析方式－事件驅動。一個SAX檢測即將到來的XML流，但並沒有載入到記憶體（當然當XML流被讀入時，會有部分文件暫時隱藏在記憶體中）。

我的看法：如果XML文件較大且不考慮移植性問題建議採用DOM4J；如果XML文件較小則建議採用JDOM；如果需要及時處理而不需要儲存資料則考慮SAX。但無論如何，還是那句話：適合自己的才是最好的，如果時間允許，建議大家講這四種方法都嘗試一遍然後選擇一種適合自己的即可。

三、示例

為了節約篇幅，這裡暫時不給出這四種建立XML文件的方法與差異，僅給出解析XML文件的程式碼，如果需要完整工程（建立XML文件+解析XML+測試比較）。

這裡以下面的XML內容為例進行解析：

<?xml version="1.0" encoding="UTF-8"?>
<users>
    <user id="0">
        <name>Alexia</name>
        <age>23</age>
        <sex>Female</sex>
    </user>
    <user id="1">
        <name>Edward</name>
        <age>24</age>
        <sex>Male</sex>
    </user>
    <user id="2">
        <name>wjm</name>
        <age>23</age>
        <sex>Female</sex>
    </user>
    <user id="3">
        <name>wh</name>
        <age>24</age>
        <sex>Male</sex>
    </user>
</users>

首先定義XML文件解析的介面：

/**
 * @author Alexia
 *
 * 定義XML文件解析的介面
 */
public interface XmlDocument {
     
	/**
	* 解析XML文件
	* 
	* @param fileName
	*            檔案全路徑名稱
	*/
	public void parserXml(String fileName);
}

1. DOM示例

package com.xml;

import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.PrintWriter;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.transform.OutputKeys;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerConfigurationException;
import javax.xml.transform.TransformerException;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

/**
 * 
 * DOM 解析XML文件
 */
public class DomDemo implements XmlDocument {
    private Document document;

    public void parserXml(String fileName) {
        try {
            DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
            DocumentBuilder db = dbf.newDocumentBuilder();
            Document document = db.parse(fileName);
            NodeList users = document.getChildNodes();
            
            for (int i = 0; i < users.getLength(); i++) {
                Node user = users.item(i);
                NodeList userInfo = user.getChildNodes();
                
                for (int j = 0; j < userInfo.getLength(); j++) {
                    Node node = userInfo.item(j);
                    NodeList userMeta = node.getChildNodes();
                    
                    for (int k = 0; k < userMeta.getLength(); k++) {
                        if(userMeta.item(k).getNodeName() != "#text")
                            System.out.println(userMeta.item(k).getNodeName()
                                    + ":" + userMeta.item(k).getTextContent());
                    }
                    
                    System.out.println();
                }
            }
            
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (ParserConfigurationException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

2. SAX示例

package com.xml;

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.io.StringWriter;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import javax.xml.transform.OutputKeys;
import javax.xml.transform.Result;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerConfigurationException;
import javax.xml.transform.sax.SAXTransformerFactory;
import javax.xml.transform.sax.TransformerHandler;
import javax.xml.transform.stream.StreamResult;

import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.AttributesImpl;
import org.xml.sax.helpers.DefaultHandler;

/**
 * 
 * SAX 解析XML文件
 */
public class SaxDemo implements XmlDocument {

    public void parserXml(String fileName) {
        SAXParserFactory saxfac = SAXParserFactory.newInstance();

        try {
            SAXParser saxparser = saxfac.newSAXParser();
            InputStream is = new FileInputStream(fileName);
            saxparser.parse(is, new MySAXHandler());
        } catch (ParserConfigurationException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

class MySAXHandler extends DefaultHandler {
    boolean hasAttribute = false;
    Attributes attributes = null;

    public void startDocument() throws SAXException {
        // System.out.println("文件開始列印了");
    }

    public void endDocument() throws SAXException {
        // System.out.println("文件列印結束了");
    }

    public void startElement(String uri, String localName, String qName,
            Attributes attributes) throws SAXException {
        if (qName.equals("users")) {
            return;
        }
        if (qName.equals("user")) {
            return;
        }
        if (attributes.getLength() > 0) {
            this.attributes = attributes;
            this.hasAttribute = true;
        }
    }

    public void endElement(String uri, String localName, String qName)
            throws SAXException {
        if (hasAttribute && (attributes != null)) {
            for (int i = 0; i < attributes.getLength(); i++) {
                System.out.print(attributes.getQName(0) + ":"
                        + attributes.getValue(0));
            }
        }
    }

    public void characters(char[] ch, int start, int length)
            throws SAXException {
        System.out.print(new String(ch, start, length));
    }
}

3. JDOM示例

package com.xml;

import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.util.List;

import org.jdom2.Document;
import org.jdom2.Element;
import org.jdom2.JDOMException;
import org.jdom2.input.SAXBuilder;
import org.jdom2.output.XMLOutputter;

/**
 * 
 * JDOM 解析XML文件
 * 
 */
public class JDomDemo implements XmlDocument {

    public void parserXml(String fileName) {
        SAXBuilder builder = new SAXBuilder();

        try {
            Document document = builder.build(fileName);
            Element users = document.getRootElement();
            List userList = users.getChildren("user");

            for (int i = 0; i < userList.size(); i++) {
                Element user = (Element) userList.get(i);
                List userInfo = user.getChildren();

                for (int j = 0; j < userInfo.size(); j++) {
                    System.out.println(((Element) userInfo.get(j)).getName()
                            + ":" + ((Element) userInfo.get(j)).getValue());

                }
                System.out.println();
            }
        } catch (JDOMException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }

    }
}

4. DOM4J示例

package com.xml;

import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.io.Writer;
import java.util.Iterator;

import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.DocumentHelper;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
import org.dom4j.io.XMLWriter;

/**
 * 
 * Dom4j 解析XML文件
 */
public class Dom4jDemo implements XmlDocument {

    public void parserXml(String fileName) {
        File inputXml = new File(fileName);
        SAXReader saxReader = new SAXReader();

        try {
            Document document = saxReader.read(inputXml);
            Element users = document.getRootElement();
            for (Iterator i = users.elementIterator(); i.hasNext();) {
                Element user = (Element) i.next();
                for (Iterator j = user.elementIterator(); j.hasNext();) {
                    Element node = (Element) j.next();
                    System.out.println(node.getName() + ":" + node.getText());
                }
                System.out.println();
            }
        } catch (DocumentException e) {
            System.out.println(e.getMessage());
        }
    }

}

參考：

四種XML解析方式詳解

一、介紹及優缺點分析

1. DOM（Document Object Model)

2. SAX（Simple API for XML)

3. JDOM(Java-based Document Object Model)

4. DOM4J(Document Object Model for Java)

二、比較

三、示例

1. DOM示例

2. SAX示例

3. JDOM示例

4. DOM4J示例

四種XML解析方式詳解

四種網路請求方式詳解

SpringDI四種依賴注入方式詳解

XML解析方法詳解

演算法學習——Map的四種遍歷方法詳解

JAVA程式設計中常用的四種JSON解析方式

二叉樹的建立及三種遍歷方式詳解

JVM——四種垃圾收集演算法詳解

離散化：兩種離散化方式詳解

Android進階一幾種網路請求方式詳解

Android中的幾種網路請求方式詳解

Activity四種啟動模式圖文詳解：standard, singleTop, singleTask 以及 singleInstance

java四種執行緒池詳解與使用

JAVA四種執行緒池詳解

Ajax中的兩種傳參方式詳解

四種乙太網資料包詳解

Java中四種XML解析技術

【python+selenium的web自動化】- 8種元素定位方式詳解

Android-基本控件和詳解四種布局方式

Map的四種遍歷方式及詳解

四種XML解析方式詳解

一、介紹及優缺點分析

1. DOM（Document Object Model)

2. SAX（Simple API for XML)

3. JDOM(Java-based Document Object Model)

4. DOM4J(Document Object Model for Java)

二、比較

三、示例

1. DOM示例

2. SAX示例

3. JDOM示例

4. DOM4J示例

相關推薦