第三章——供機器讀取的數據（XML）

阿新 • • 發佈：2017-10-28

t對象有一個 back 兩個代碼 highlight github attr logs

本書使用的文件、代碼：https://github.com/huangtao36/data_wrangling

機器可讀（machine readable）文件格式： 1、逗號分隔值（Comma-Separated Values, CSV） 2、JavaScript對象符號（JavaScript Object Notation, JSON） 3、可擴展標記語言（eXtensible Markup Language, XML）

第三章使用的數據文件：

XML數據

XML是一種標記語言，它具有包含格式化數據的文檔結構。本質是也只是格式特殊的數據文件。要處理的數據樣本（XML基本數據格式）：技術分享

XML中有兩個位置可以保存數據：

　　　　1、兩個標簽之間：<Display>71</Display>

　　　　2、標簽的屬性：<Dim Category="SEX" Code="BTSX"/>——其中Category的屬性值是“SEX”，Code的屬性值是"BTSX"。

　　　　XML的屬性可以保存特定標簽的額外信息，這些標簽又嵌套在另一個標簽中。

實現代碼（基於Python3）

from xml.etree import ElementTree as ET

tree = ET.parse(‘data-text.xml‘)
root = tree.getroot()   #獲取樹的根元素

data = root.find(‘Data‘)

all_data = []

for observation in data:
    record = {}
    for item in observation:
        lookup_key_List = list(item.attrib.keys())
        lookup_key = lookup_key_List[0]
        if lookup_key == ‘Numeric‘:
            rec_key = ‘NUMERIC‘
            rec_value = item.attrib[‘Numeric‘]
        else:
            rec_key = item.attrib[lookup_key]
            rec_value = item.attrib[‘Code‘]
        record[rec_key] = rec_value
    all_data.append(record)

print (all_data)

輸出（部分）：

技術分享

　　（輸出的是單行數據，為了直觀，這裏進行了處理。）

代碼解釋

from xml.etree import ElementTree as ET

本例中使用的是ElementTree、還可以使用lxml、minidom這兩種庫來解析XML文件，在此不做說明

獲取Data元素中的內容

　　由上面的樣本可知，我們使用的數據是包含在一個<Data>...</Data>中的，這裏使用根元素的find方法可以利用標簽名來搜索子元素。　

from xml.etree import ElementTree as ET

tree = ET.parse(‘data-text.xml‘)
root = tree.getroot()   #獲取樹的根元素

data = root.find(‘Data‘)
 

print (list(data))

輸出：

　　　　輸出的是一個列表，元素是<Observation> ........</Observation>標簽裏面的內容　　　　我們的數據文件只有一個Data標簽，如果有多個Data標簽，可以將find函數改為findall函數來遍歷。

第三章——供機器讀取的數據（XML）

第三章——供機器讀取的數據

ron mar tao .com nbsp glin arm sublime highlight 本書使用的文件、代碼：https://github.com/huangtao36/data_wrangling 機器可讀（machine readable）文件格式： 1、

第三章——供機器讀取的數據（XML）

t對象有一個 back 兩個代碼 highlight github attr logs 本書使用的文件、代碼：https://github.com/huangtao36/data_wrangling 機器可讀（machine readable）文件格式： 1、逗

第三章深入內觀的方法（一）

穩定 photo sig 認識他會試驗是什麽忘記謙虛 http://blog.sina.com.cn/s/blog_16697cb1a0102wxh7.html 第三章深入內觀的方法（一）歡迎來這裏禪修，非常高興看見你們。我告訴過你們：我所見過最美好

jmeter從表格批量讀取數據（一）

數據數據文件線程 info image val 配置響應說明 1、新建一個文本文檔，重命名為2.csv 2、可以在文檔中設置如下參數；casenum:用例編號；url：訪問路徑；para:訪問的域名；function:請求方式；expectValue:響應值 3、

第三章處理機排程與死鎖（2）

四、產生死鎖的原因和必要條件死鎖（Deadlock）：指程序之間無休止地互相等待飢餓（Starvation）：指一個程序無休止地等待產生死鎖的原因： 1.競爭資源。系統中供多個程序共享的資源如印表機、公用佇列等的數目不滿足需要時，會引起資源競爭而產生死鎖。可把系統中的資源分為兩

第三章處理機排程與死鎖（1）

一、處理機排程相關基本概念作業進入系統駐留在外存的後備佇列上，再至調入記憶體執行完畢，可能要經歷下述三級排程。 1.高階排程（High Scheduling）又稱作業排程或長程排程(Long-Term Scheduling),接納排程(Admission Scheduling)。主要

第三章處理機排程與死鎖（二）

3.6 預防死鎖 1. 破壞“請求和保持”條件所有程序在開始執行之前，必須一次性地申請其在整個執行過程中所需的全部資源。優點：簡單、易行且安全缺點：①資源被嚴重浪費 ②使程序經常會發生飢餓現象 2. 破壞“不可搶佔”條件允許程序先執行，提出新的

第三章處理機排程與死鎖（一）

3.1 處理機排程的層次和排程演算法的目標 1.系統執行並不一定存在高階排程批處理系統有作業排程，分時系統和實時系統不需要作業排程。 2.引入中級排程的主要目的是，提高記憶體利用率和系統吞吐量，根據條件將一些程序調出或再調入記憶體。 3.排程程式也是程式。 4.排程原則

《學習之道》第三章愛迪生的創造力（學習）

　　愛迪生的創造力為何如此出色？答案如你所見：這離不開他轉換思維模式所用到的獨特技巧。需要說明的是創造力即是學習！　　對於大多數人來說，只要轉換一下心情，花上一點時間，就能自然地從專注模式轉換到發散模式……關鍵在於去做別的事，知道你的大腦意識自然地玩掉了之前的問題。只要把你的注意力轉移到其他要做的事上，再

機器學習實戰第8章預測數值型數據：回歸

矩陣向量 from his sca ima 用戶 targe 不可 1.簡單的線性回歸假定輸入數據存放在矩陣X中，而回歸系數存放在向量W中，則對於給定的數據X1，預測結果將會是　　　　　　　　　　　　　　　　這裏的向量都默認為列向量現在的問題是手裏有一些x

『Python』Numpy學習指南第三章__常用函數

第一個 indices first 填充 del lib ida like otl 感覺心情漸漸變好了，加油！np.eye(2)np.savetxt(‘eye.txt‘,i2)c,v = np.loadtxt(‘data.csv‘, delimiter=‘,‘, useco

Python開發【第三篇】：基本數據類型

name 分享圖片 alex 賦值運算 gpo 基本刪除索引常用功能 1、算數運算： 2、比較運算： 3、賦值運算： 4、邏輯運算： 5、成員運算： ---------------------------------------------------

【MySQL】《高性能MySQL》學習筆記，第四章，Schema與數據類型優化

MySQL優化 MySQL表設計 MySQL開發規範 MySQL數據類型【MySQL】《高性能MySQL》學習筆記，第四章，Schema與數據類型優化良好的邏輯設計和物理設計是高性能的基石，應該根據系統將要執行的查詢語句來設計schema。反範式的設計可以加快某些類型的查詢，單同時可能使

Linux 筆記 - 第十三章 Linux 系統日常管理之（四）Linux 數據備份工具 rsync 和網絡配置

方法 target speed cnblogs rsync -av html links 布爾值單個博客地址：http://www.moonxy.com 一、前言 sync 命令是一個遠程數據同步工具，可通過 LAN/WAN 快速同步多臺主機間的文件，可以理解為 rem

第1章高效處理千萬數據

研究連接數 ldr if函數有用返回金額生成內連接 1.1 最容易上手的數據庫 1.1.1 數據庫那些事兒數據分析主要有三大作用：現狀分析-告訴我們過去發生了什麽；原因分析-告訴我們為什麽會發生；預測分析-告訴我們將來會發生什麽。 Access數據庫優勢

django基礎第五章 Django連接數據庫

如果用戶 earch 遷移執行 mage go基礎 delet get 第五章 Django連接數據庫 1 連接配置 django 連接mysql的配置流程：安裝 pymysql pip install pymysql 創建數據庫用戶(有創建數據庫權限) 創建數據庫

第六章：內核數據結構

模型帶來函數生產者-消費者模型散列 lin 時間復雜度條件搜索 6.1鏈表鏈表表示一種存放和操作的可變數據元素的數據結構。鏈表與靜態數組不同的是它包含的元素是動態創建並且插入鏈表的，在編譯時不必知道具體需要多少個元素。另外鏈表中每個元素的創建時間各不

【python-excel】Selenium+python自動化之讀取Excel數據（xlrd）

logs title .html selenium2 ref target targe pos 數據 Selenium2+python自動化之讀取Excel數據（xlrd）轉載地址：http://www.cnblogs.com/lingzeng86/p/6793398.h

Selenium2+python自動化58-讀取Excel數據（xlrd）【轉載】

filepath image index all 參數 init -1 else 編輯前言當登錄的賬號有多個的時候，我們一般用excel存放測試數據，本節課介紹，python讀取excel方法，並保存為字典格式。一、環境準備 1.先安裝xlrd模塊，打開cmd，輸

day20 java 語言中的讀取寫入數據（一）

day20 java 語言中的讀取寫入數據（一）day20 java 語言中的讀取寫入數據（一）一、io概述 io數據流的讀寫功能，在實際的生活中也很常見，比如文件的上傳、下載，日誌的自動更新等都與io讀寫密切相關。io又被分為了讀取數據和寫入數據兩個大的功能。下面就來看看讀取數據的幾種類。二、讀取

第三章——供機器讀取的數據（XML）

XML數據

實現代碼（基於Python3）

代碼解釋

相關推薦