XML 詳解
阿新 • • 發佈:2018-12-12
Xml
eXtendsible markup language 可擴充套件的標記語言
XML 有什麼用?
1. 可以用來儲存資料
2. 可以用來做配置檔案
3. 資料傳輸載體
定義xml
其實就是一個檔案,檔案的字尾為 .xml
文件宣告
簡單宣告, version : 解析這個xml的時候,使用什麼版本的解析器解析 <?xml version="1.0" ?> encoding : 解析xml中的文字的時候,使用什麼編碼來翻譯 <?xml version="1.0" encoding="gbk" ?> standalone : no - 該文件會依賴關聯其他文件 , yes-- 這是一個獨立的文件 <?xml version="1.0" encoding="gbk" standalone="no" ?>
在解析這個xml的時候,使用什麼編碼去解析。 ---解碼。
文字, 而是儲存這些文字對應的二進位制 。 那麼這些文字對應的二進位制到底是多少呢? 根據檔案使用的編碼 來得到。
預設檔案儲存的時候,使用的是GBK的編碼儲存。
所以要想讓我們的xml能夠正常的顯示中文,有兩種解決辦法
1. 讓encoding也是GBK 或者 gb2312 .
2. 如果encoding是 utf-8 , 那麼儲存檔案的時候也必須使用utf-8
為了通用,建議使用UTF-8編碼儲存,以及encoding 都是 utf-8
1. 其實就是裡面的標籤, <> 括起來的都叫元素 。 成對出現。 如下:
<stu> </stu>
2. 文件宣告下來的第一個元素叫做根元素 (根標籤)
3. 標籤裡面可以巢狀標籤
既是開始也是結束。 一般配合屬性來用。
5. 標籤可以自定義。
XML 命名規則 XML 元素必須遵循以下命名規則:
名稱可以含字母、數字以及其他的字元 名稱不能以數字或者標點符號開始 名稱不能以字元 “xml”(或者 XML、Xml)開始 名稱不能包含空格
* 簡單元素
元素裡面包含了普通的文字
* 複雜元素
元素裡面還可以巢狀其他的元素
> 定義在元素裡面, <元素名稱 屬性名稱="屬性的值"></元素名稱> <stus> <stu id="10086"> <name>張三</name> <age>18</age> </stu> <stu id="10087"> <name>李四</name> <age>28</age> </stu> </stus>
與html的註釋一樣。
<!-- -->
xml的註釋,不允許放置在文件的第一行。 必須在文件宣告的下面。
CDATA區
非法字元
嚴格地講,在 XML 中僅有字元 "<"和"&" 是非法的。省略號、引號和大於號是合法的,但是把它們替換為實體引用是個好的習慣。
< < & &
如果某段字串裡面有過多的字元, 並且裡面包含了類似標籤或者關鍵字的這種文字,不想讓xml的解析器去解析。 那麼可以使用CDATA來包裝。 不過這個CDATA 一般比較少看到。 通常在伺服器給客戶端返回資料的時候。
<des><![CDATA[<a href="http://www.baidu.com">我愛你</a>]]></des>
其實就是獲取元素裡面的字元資料或者屬性資料。
XML解析方式(面試常問)
> 有很多種,但是常用的有兩種。
* DOM
* SAX
針對這兩種解析方式的API
些組織或者公司, 針對以上兩種解析方式, 給出的解決方案有哪些?
jaxp sun公司。 比較繁瑣
jdom dom4j 使用比較廣泛
element.element("stu") : 返回該元素下的第一個stu元素 element.elements(); 返回該元素下的所有子元素。
1. 建立SaxReader物件
2. 指定解析的xml
3. 獲取根元素。
4. 根據根元素獲取子元素或者下面的子孫元素
dom4j裡面支援Xpath的寫法。 xpath其實是xml的路徑語言,支援我們在解析xml的時候,能夠快速的定位到具體的某一個元素。
1. 新增jar包依賴
jaxen-1.1-beta-6.jar
2. 在查詢指定節點的時候,根據XPath語法規則來查詢
3. 後續的程式碼與以前的解析程式碼一樣。
//獲取文件裡面的所有name元素 List<Element> list = rootElement.selectNodes("//name"); for (Element element : list) { System.out.println(element.getText()); }
如下的文件, 屬性的ID值是一樣的。 這在生活中是不可能出現的。 並且第二個學生的姓名有好幾個。 一般也很少。那麼怎麼規定ID的值唯一, 或者是元素只能出現一次,不能出現多次? 甚至是規定裡面只能出現具體的元素名字。
DTD
語法自成一派, 早起就出現的。 可讀性比較差。
1. 引入網路上的DTD
<!-- 引入dtd 來約束這個xml -->
<!-- 文件型別 根標籤名字 網路上的dtd dtd的名稱 dtd的路徑 <!DOCTYPE stus PUBLIC "//UNKNOWN/" "unknown.dtd"> -->
2. 引入本地的DTD
<!-- 引入本地的DTD : 根標籤名字 引入本地的DTD dtd的位置 --> <!-- <!DOCTYPE stus SYSTEM "stus.dtd"> -->
2. 直接在XML裡面嵌入DTD的約束規則
<!-- xml文件裡面直接嵌入DTD的約束法則 --> <!DOCTYPE stus [ <!ELEMENT stus (stu)> <!ELEMENT stu (name,age)> <!ELEMENT name (#PCDATA)> <!ELEMENT age (#PCDATA)> ]> <stus> <stu> <name>張三</name> <age>18</age> </stu> </stus>
+ 一個或多個 * 零個或多個 ? 零個或一個 屬性的型別定義 CDATA : 屬性是普通文字 ID : 屬性的值必須唯一
<!ELEMENT stu (name | age)> 兩個中只能包含一個子元素 Schema
其實就是一個xml , 使用xml的語法規則, xml解析器解析起來比較方便 , 是為了替代DTD 。 但是Schema 約束文字內容比DTD的內容還要多。 所以目前也沒有真正意義上的替代DTD
名稱空間的作用
一個xml如果想指定它的約束規則, 假設使用的是DTD ,那麼這個xml只能指定一個DTD , 不能指定多個DTD 。 但是如果一個xml的約束是定義在schema裡面,並且是多個schema,那麼是可以的。簡單的說: 一個xml 可以引用多個schema約束。 但是隻能引用一個DTD約束。
名稱空間的作用就是在 寫元素的時候,可以指定該元素使用的是哪一套約束規則。 預設情況下 ,如果只有一套規則,那麼都可以這麼寫
<name>張三</name>
<aa:name></aa:name> <bb:name></bb:name>