1. 程式人生 > >XML 詳解

XML 詳解

 

 

Xml

 

eXtendsible markup language 可擴充套件的標記語言

 

XML 有什麼用?

 

1. 可以用來儲存資料

 

2. 可以用來做配置檔案

 

3. 資料傳輸載體

 

 

 

定義xml

 

其實就是一個檔案,檔案的字尾為 .xml

 

文件宣告

 

        簡單宣告, version : 解析這個xml的時候,使用什麼版本的解析器解析         <?xml version="1.0" ?>              encoding : 解析xml中的文字的時候,使用什麼編碼來翻譯         <?xml version="1.0" encoding="gbk" ?>              standalone : no - 該文件會依賴關聯其他文件 , yes-- 這是一個獨立的文件         <?xml version="1.0" encoding="gbk" standalone="no" ?>

 

 encoding詳解

 

 在解析這個xml的時候,使用什麼編碼去解析。 ---解碼。

 

     文字, 而是儲存這些文字對應的二進位制 。 那麼這些文字對應的二進位制到底是多少呢? 根據檔案使用的編碼 來得到。

 

  預設檔案儲存的時候,使用的是GBK的編碼儲存。

 

所以要想讓我們的xml能夠正常的顯示中文,有兩種解決辦法

 

1. 讓encoding也是GBK 或者 gb2312 .

 

2. 如果encoding是 utf-8 , 那麼儲存檔案的時候也必須使用utf-8

 

3. 儲存的時候見到的ANSI 對應的其實是我們的本地編碼 GBK。

 

為了通用,建議使用UTF-8編碼儲存,以及encoding 都是 utf-8



 元素定義(標籤)

 

1. 其實就是裡面的標籤, <> 括起來的都叫元素 。 成對出現。 如下:

 

    <stu> </stu>

 

2. 文件宣告下來的第一個元素叫做根元素 (根標籤)

 

3. 標籤裡面可以巢狀標籤

 

4. 空標籤

 

    既是開始也是結束。 一般配合屬性來用。

 

5. 標籤可以自定義。

 

XML 命名規則  XML 元素必須遵循以下命名規則:

 

 名稱可以含字母、數字以及其他的字元  名稱不能以數字或者標點符號開始  名稱不能以字元 “xml”(或者 XML、Xml)開始  名稱不能包含空格



    命名儘量簡單,做到見名知義



 簡單元素 & 複雜元素

 

* 簡單元素

 

 元素裡面包含了普通的文字

 

* 複雜元素

 

 元素裡面還可以巢狀其他的元素



 屬性的定義

 

> 定義在元素裡面, <元素名稱 屬性名稱="屬性的值"></元素名稱>         <stus>             <stu id="10086">                 <name>張三</name>                 <age>18</age>             </stu>             <stu id="10087">                 <name>李四</name>                 <age>28</age>             </stu>         </stus>




 xml註釋:

 

 與html的註釋一樣。

 

    <!-- -->     

 

  xml的註釋,不允許放置在文件的第一行。 必須在文件宣告的下面。

 

 CDATA區

 

  非法字元

 

嚴格地講,在 XML 中僅有字元 "<"和"&" 是非法的。省略號、引號和大於號是合法的,但是把它們替換為實體引用是個好的習慣。

 

< &lt; & &amp;

 

如果某段字串裡面有過多的字元, 並且裡面包含了類似標籤或者關鍵字的這種文字,不想讓xml的解析器去解析。 那麼可以使用CDATA來包裝。 不過這個CDATA 一般比較少看到。 通常在伺服器給客戶端返回資料的時候。

 

    <des><![CDATA[<a href="http://www.baidu.com">我愛你</a>]]></des>



 XML 解析

 

 其實就是獲取元素裡面的字元資料或者屬性資料。

 

 XML解析方式(面試常問)

 

> 有很多種,但是常用的有兩種。

 

* DOM

 

* SAX

 

 

 

 

 針對這兩種解析方式的API

 

 些組織或者公司, 針對以上兩種解析方式, 給出的解決方案有哪些?

 

        jaxp sun公司。 比較繁瑣

 

        jdom         dom4j 使用比較廣泛



 Dom4j 基本用法

 

        element.element("stu") : 返回該元素下的第一個stu元素         element.elements(); 返回該元素下的所有子元素。

 

1. 建立SaxReader物件

 

2. 指定解析的xml

 

3. 獲取根元素。

 

4. 根據根元素獲取子元素或者下面的子孫元素



        try {             //1. 建立sax讀取物件             SAXReader reader = new SAXReader(); //jdbc -- classloader             //2. 指定解析的xml源             Document document = reader.read(new File("src/xml/stus.xml"));                          //3. 得到元素、             //得到根元素             Element rootElement= document.getRootElement();                          //獲取根元素下面的子元素 age         //rootElement.element("age")             //System.out.println(rootElement.element("stu").element("age").getText());



            //獲取根元素下面的所有子元素 。 stu元素             List<Element> elements = rootElement.elements();             //遍歷所有的stu元素             for (Element element : elements) {                 //獲取stu元素下面的name元素                 String name = element.element("name").getText();                 String age = element.element("age").getText();                 String address = element.element("address").getText();                 System.out.println("name="+name+"==age+"+age+"==address="+address);             }                      } catch (Exception e) {             e.printStackTrace();         }



SaxReader 建立好物件 。

 

 



 Dom4j 的 Xpath使用

 

  dom4j裡面支援Xpath的寫法。 xpath其實是xml的路徑語言,支援我們在解析xml的時候,能夠快速的定位到具體的某一個元素。

 

1. 新增jar包依賴

 

jaxen-1.1-beta-6.jar

 

2. 在查詢指定節點的時候,根據XPath語法規則來查詢

 

3. 後續的程式碼與以前的解析程式碼一樣。




            //要想使用Xpath, 還得新增支援的jar 獲取的是第一個 只返回一個。             Element nameElement = (Element) rootElement.selectSingleNode("//name");             System.out.println(nameElement.getText());



            System.out.println("----------------");

 

            //獲取文件裡面的所有name元素             List<Element> list = rootElement.selectNodes("//name");             for (Element element : list) {                 System.out.println(element.getText());             }




 XML 約束 

 

如下的文件, 屬性的ID值是一樣的。 這在生活中是不可能出現的。 並且第二個學生的姓名有好幾個。 一般也很少。那麼怎麼規定ID的值唯一, 或者是元素只能出現一次,不能出現多次? 甚至是規定裡面只能出現具體的元素名字。

 

        

 

 DTD

 

    語法自成一派, 早起就出現的。 可讀性比較差。

 

1. 引入網路上的DTD

 

 <!-- 引入dtd 來約束這個xml -->

 

 <!-- 文件型別 根標籤名字 網路上的dtd dtd的名稱 dtd的路徑  <!DOCTYPE stus PUBLIC "//UNKNOWN/" "unknown.dtd"> -->

 

2. 引入本地的DTD

 

<!-- 引入本地的DTD : 根標籤名字 引入本地的DTD dtd的位置 --> <!-- <!DOCTYPE stus SYSTEM "stus.dtd"> -->

 

2. 直接在XML裡面嵌入DTD的約束規則

 

 <!-- xml文件裡面直接嵌入DTD的約束法則 -->  <!DOCTYPE stus [      <!ELEMENT stus (stu)>      <!ELEMENT stu (name,age)>      <!ELEMENT name (#PCDATA)>      <!ELEMENT age (#PCDATA)>  ]>    <stus>      <stu>          <name>張三</name>          <age>18</age>      </stu>  </stus>



        <!ELEMENT stus (stu)> : stus 下面有一個元素 stu , 但是隻有一個         <!ELEMENT stu (name , age)> stu下面有兩個元素 name ,age 順序必須name-age         <!ELEMENT name (#PCDATA)>         <!ELEMENT age (#PCDATA)>         <!ATTLIST stu id CDATA #IMPLIED> stu有一個屬性 文字型別, 該屬性可有可無



        元素的個數:

 

            + 一個或多個             * 零個或多個             ? 零個或一個              屬性的型別定義                  CDATA : 屬性是普通文字             ID : 屬性的值必須唯一



        <!ELEMENT stu (name , age)>     按照順序來

 

        <!ELEMENT stu (name | age)> 兩個中只能包含一個子元素  Schema

 

    其實就是一個xml , 使用xml的語法規則, xml解析器解析起來比較方便 , 是為了替代DTD 。     但是Schema 約束文字內容比DTD的內容還要多。 所以目前也沒有真正意義上的替代DTD



    約束文件:         <!-- xmlns : xml namespace : 名稱空間 / 名稱空間         targetNamespace : 目標名稱空間 。 下面定義的那些元素都與這個名稱空間繫結上。         elementFormDefault : 元素的格式化情況。 -->         <schema xmlns="http://www.w3.org/2001/XMLSchema"             targetNamespace="http://www.itheima.com/teacher"             elementFormDefault="qualified">                          <element name="teachers">                 <complexType>                     <sequence maxOccurs="unbounded">                         <!-- 這是一個複雜元素 -->                         <element name="teacher">                             <complexType>                                 <sequence>                                     <!-- 以下兩個是簡單元素 -->                                     <element name="name" type="string"></element>                                     <element name="age" type="int"></element>                                 </sequence>                             </complexType>                         </element>                     </sequence>                 </complexType>             </element>         </schema>          例項文件:         <?xml version="1.0" encoding="UTF-8"?>         <!-- xmlns:xsi : 這裡必須是這樣的寫法,也就是這個值已經固定了。         xmlns : 這裡是名稱空間,也固定了,寫的是schema裡面的頂部目標名稱空間         xsi:schemaLocation : 有兩段: 前半段是名稱空間,也是目標空間的值 , 後面是約束文件的路徑。          -->         <teachers             xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"             xmlns="http://www.itheima.com/teacher"             xsi:schemaLocation="http://www.itheima.com/teacher teacher.xsd"         >             <teacher>                 <name>zhangsan</name>                 <age>19</age>             </teacher>             <teacher>                 <name>lisi</name>                 <age>29</age>             </teacher>             <teacher>                 <name>lisi</name>                 <age>29</age>             </teacher>         </teachers>

 

 名稱空間的作用

 

一個xml如果想指定它的約束規則, 假設使用的是DTD ,那麼這個xml只能指定一個DTD , 不能指定多個DTD 。 但是如果一個xml的約束是定義在schema裡面,並且是多個schema,那麼是可以的。簡單的說: 一個xml 可以引用多個schema約束。 但是隻能引用一個DTD約束。

 

名稱空間的作用就是在 寫元素的時候,可以指定該元素使用的是哪一套約束規則。 預設情況下 ,如果只有一套規則,那麼都可以這麼寫

 

    <name>張三</name>

 

    <aa:name></aa:name>     <bb:name></bb:name>