1. 程式人生 > >機器學習探索性資料分析的資料型別(補充)

機器學習探索性資料分析的資料型別(補充)

探索性資料分析(Exploratory Data Analysis, EDA )

EDA是指對已有的資料(特別是調查或觀察得來的原始資料)在儘量少的先驗假定下進行探索,通過作圖、製表、方程擬合、計算特徵量等手段探索資料的結構和規律的一種資料分析方法。特別是當我們對這些資料中的資訊沒有足夠的經驗,不知道該用何種傳統統計方法進行分析時,探索性資料分析就會非常有效。

離散屬性:

若屬性值間存在“序”(order)關係,可通過連續化將其轉化為連續值。例如:
- 二值屬性“身高”的取值“高”、“矮”可轉化為{1.0, 0.0}
- 三值屬性“高度”的取值“高”、“中”、“低”可轉化為{1.0, 0.5, 0.0};

若屬性間不存在序關係,假定有K個屬性值,通常轉化為k維向量,例如:
- 屬性“瓜類”的取值“西瓜”、“南瓜”、“冬瓜”可轉化為(0,0,1), (0,1,0), (1,0,0)

注意: 將無序屬性連續化則會不恰當地引入序關係,對後續處理如距離計算等造成誤導。

在討論距離計算時,屬性上是否定義了序關係很重要,有序的離散屬性跟連續屬性性質更接近一些,能夠直接在屬性值上計算距離:如{1,2,3},“1”與“2”比較接近,與“3”比較遠。定義域為{飛機,火車,輪船}這樣的無序離散屬性則不能直接在屬性值上計算距離。

周志華 《機器學習》