8-格式化檔案儲存-XML
阿新 • • 發佈:2018-11-28
結構化檔案儲存
- xml, json,
- 為了解決不同裝置之間資訊交換
- xml,
json
XML檔案
- 參考資料
- XML(eXtensibleMarkupLanguage), 可擴充套件標記語言
- 標記語言: 語言中使用尖括號括起來的文字字串標記
- 可擴充套件:使用者可以自己定義需要的標記
例如:
<Teacher> 自定義標記Teacher 在兩個標記之間任何內容都應該跟Teacher相關 </Teacher>
- 是w3c組織制定的一個標準
- XML描述的是資料本身,即資料的結構和語義
HTML側重於如何顯示web頁面中的資料
- XML文件的構成
- 處理指令(可以認為一個檔案內只有一個處理指令)
- 最多隻有一行
- 且必須在第一行
- 內容是與xml本身處理起相關的一些宣告或者指令
- 以xml關鍵字開頭
- 一般用於宣告XML的版本和採用的編碼
- version屬性是必須的
- encoding屬性用來支出xml直譯器使用的編碼
- 根元素(一個檔案內只有一個根元素)
- 在整個xml檔案中,可以把他看作一個樹形結構
- 根元素有且只能由一個
- 子元素
- 屬性
- 內容
- 表明標籤所儲存的資訊
- 註釋
- 起說明作用的資訊
- 註釋不能巢狀在標籤裡
- 只有在註釋的開始和結尾使用雙短橫線
三短橫線只能出現在註釋的開頭而不能用在結尾
<name> <!-- wangdapeng --> </name> #可以 <name <!-- wangdapeng -->> </name> #不可以,註釋在標籤內 <!--my-name-by-wang--> #可以,註釋內容可以有一個短橫線 <!--my--name--by--wang-->#不可以,雙短橫線只能出現在開頭或結尾 <!---my-name--> #可以, 三短橫線只能出現在開頭 <!---my-name---> #不可以, 三短橫線只能出現在開頭
- 處理指令(可以認為一個檔案內只有一個處理指令)
- 保留字元的處理
- XML中使用的符號可能跟實際符號相沖突,典型的就是左右尖括號
使用實體引用(EntityReference)來表示保留字元
<score> score>80 </score> #有錯誤,xml中不能出現> <score> score>80</score> #使用實體引用
把含有保留字元的部分放在CDATA塊內部,CDATA塊把內部資訊視為不需要轉義
<![CDATA[ select name,age from Student where score>80 ]]>
常用的需要轉移的保留字元和對應實體引用
- &:& - <:< - >:> - ':' - ":" - 一共五個, 每個實體引用都以&開頭並且以分號結尾
- XML標籤的命名規則
- Pascal命名法
- 用單詞表示,第一個字母大寫
- 大小寫嚴格區分
- 配對的標籤必須一直
- 名稱空間
為了防止命名衝突
<Student> <Name>LiuYing</Name> <Age>23</Age> </Student> <Room> <Name>2014</Name> <Location>1-23-1</Location> </Room>
如果歸併上述兩個內容資訊,會產生衝突
<Schooler> <Name>LiuYing</Name> <Age>23</Age> <Name>2014</Name> <Location>1-23-1</Location> </Schooler>
- 為了避免衝突,需要給可能衝突元素新增名稱空間
xmlns: xml name space 的縮寫
<Schooler xmlns:student="http://my_student" xmlns:room="http://my_room"> <student:Name>LiuYing</student:Name> <Age>23</Age> <romm:Name>2014</room:Name> <Location>1-23-1</Location> </Schooler>
XML訪問
讀取
- XML讀取分兩個主要技術,SAX, DOM
- SAX(Simple API for XML):
- 基於事件驅動的API
- 利用SAX解析文件設計到解析器和事件處理兩部分
- 特點:
- 快
- 流式讀取
- DOM
- 是W3C規定的XML程式設計介面
- 一個XML檔案再快取中以樹形結構儲存,讀取
- 用途
- 定位瀏覽XML任何一個節點資訊
- 新增刪除相應內容
- minidom
- minidom.parse(filename):載入讀取的xml檔案, filename也可以是xml程式碼
- doc.documentElement:獲取xml文件物件,一個xml檔案只有一個對於的文件物件
- node.getAttribute(attr_name):獲取xml節點的屬性值
- node.getElementByTagName(tage_name):得到一個節點物件集合
- node.childNodes:得到所有孩子節點
- node.childNodes[index].nodeValue:獲取單個節點值
- node.firstNode:得到第一個節點,等價於node.childNodes[0]
- node.attributes[tage_name]
- 案例v01
- etree
- 以樹形結構來表示xml
- root.getiterator:得到相應的可迭代的node集合
- root.iter
- find(node_name):查詢指定node_name的節點,返回一個node
- root.findall(node_name):返回多個node_name的節點
- node.tag: node對應的tagename
- node.text:node的文字值
- node.attrib: 是node的屬性的字典型別的內容
- 案例v02
- xml檔案寫入
- 更改
- ele.set:修改屬性
- ele.append: 新增子元素
- ele.remove:刪除元素
- 案例 v03
- 生成建立
- SubElement, 案例v04
- minidom 寫入, 案例v05
- etree建立, 案例v06
- 更改
<?xml version="1.0" encoding="utf-8" ?>
<School type="online" loc="beijing">
<Student gender="male">
<score> math>80 </score>
<name>
haha
</name>
<age>18</age>
</Student>
<Student>
<name>haha</name>
<age>18</age>
</Student>
<Student>
<name>haha</name>
<age>18</age>
</Student>
</School>
student.xml
<?xml version="1.0" encoding="utf-8" ?>
<School>
<Teacher desc="PythonTeacher" score="good">
<Name>LiuDana</Name>
<Age_1 Detail="Age for year 2010">18</Age_1>
<Mobile>13260446055</Mobile>
</Teacher>
<Student>
<Name Other="他是班長">ZhangSan</Name>
<Age Detail="The yongest boy in class">14</Age>
</Student>
<Student>
<Name>LiSi</Name>
<Age>19</Age>
<Mobile>15578875040</Mobile>
</Student>
<!-- 這是北京圖靈學院的一個例子而已 -->
</School>
案例v01
import xml.dom.minidom
# 負責解析xml檔案
from xml.dom.minidom import parse
# 使用minidom開啟xml檔案
DOMTree = xml.dom.minidom.parse("student.xml")
#得到文件物件
doc = DOMTree.documentElement
# 顯示子元素
for ele in doc.childNodes:
if ele.nodeName == "Teacher":
print("-------Node:{0}-----".format(ele.nodeName))
childs = ele.childNodes
for child in childs:
if child.nodeName == "Name":
# data是文字節點的一個屬性,表示他的值
print("Name: {0}".format(child.childNodes[0].data))
if child.nodeName == "Mobile":
# data是文字節點的一個屬性,表示他的值
print("Mobile: {0}".format(child.childNodes[0].data))
if child.nodeName == "Age":
# data是文字節點的一個屬性,表示他的值
print("Age: {0}".format(child.childNodes[0].data))
if child.hasAttribute("detail"):
print("Age-detail: {0}".format(child.getAttribute("detail")))
案例v02
import xml.etree.ElementTree
root = xml.etree.ElementTree.parse("student.xml")
print("利用getiterator訪問:")
nodes = root.getiterator()
for node in nodes:
print("{0}--{1}".format(node.tag, node.text))
print("利用find和findall方法:")
ele_teacher = root.find("Teacher")
print(type(ele_teacher))
print("{0}--{1}".format(ele_teacher.tag, ele_teacher.text))
ele_stus = root.findall("Student")
print(type(ele_stus))
for ele in ele_stus:
print("{0}--{1}".format(ele.tag, ele.text))
for sub in ele.getiterator():
if sub.tag =="Name":
if "Other" in sub.attrib.keys():
print(sub.attrib['Other'])
案例v03
import xml.etree.ElementTree as et
tree = et.parse(r'to_edit.xml')
root = tree.getroot()
for e in root.iter('Name'):
print(e.text)
for stu in root.iter('Student'):
name = stu.find('Name')
if name != None:
name.set( 'test', name.text * 2)
stu = root.find('Student')
#生成一個新的 元素
e = et.Element('ADDer')
e.attrib = {'a':'b'}
e.text = '我加的'
stu.append(e)
# 一定要把修改後的內容寫回檔案,否則修改無效
tree.write('to_edit.xml')
案例v04
import xml.etree.ElementTree as et
stu = et.Element("Student1")
name = et.SubElement(stu, 'Name')
name.attrib = {'lang','en'}
name.text = 'maozedong'
age = et.SubElement(stu, 'Age')
age.text = 18
et.dump(stu)
案例v05
import xml.dom.minidom
#在記憶體中建立一個空的文件
doc = xml.dom.minidom.Document()
#建立一個根節點Managers物件
root = doc.createElement('Managers')
#設定根節點的屬性
root.setAttribute('company', 'xx科技')
root.setAttribute('address', '科技軟體園')
#將根節點新增到文件物件中
doc.appendChild(root)
managerList = [{'name' : 'joy', 'age' : 27, 'sex' : '女'},
{'name' : 'tom', 'age' : 30, 'sex' : '男'},
{'name' : 'ruby', 'age' : 29, 'sex' : '女'}
]
for i in managerList :
nodeManager = doc.createElement('Manager')
nodeName = doc.createElement('name')
#給葉子節點name設定一個文字節點,用於顯示文字內容
nodeName.appendChild(doc.createTextNode(str(i['name'])))
nodeAge = doc.createElement("age")
nodeAge.appendChild(doc.createTextNode(str(i["age"])))
nodeSex = doc.createElement("sex")
nodeSex.appendChild(doc.createTextNode(str(i["sex"])))
#將各葉子節點新增到父節點Manager中,
#最後將Manager新增到根節點Managers中
nodeManager.appendChild(nodeName)
nodeManager.appendChild(nodeAge)
nodeManager.appendChild(nodeSex)
root.appendChild(nodeManager)
#開始寫xml文件
fp = open('Manager.xml', 'w')
doc.writexml(fp, indent='\t', addindent='\t', newl='\n', encoding="utf-8")
案例v06
import xml.etree.ElementTree as et
#在記憶體中建立一個空的文件
etree = et.ElementTree()
e = et.Element('Student')
etree._setroot(e)
e_name = et.SubElement(e, 'Name')
e_name.text = "hahahah"
etree.write('v06.xml')