1. 程式人生 > 其它 >【數字挖掘學習筆記】第二章__資料

【數字挖掘學習筆記】第二章__資料

1、資料型別與物件

什麼是資料?

資料是資料物件的集合;資料物件用一組刻畫其基本性質的屬性描述;屬性是物件的性質或者特徵;

屬性值:為了分析屬性,我們為他們賦予的數字或符號,稱為屬性值。

 

 屬性分為離散型和連續型。

非對稱屬性:只重視少部分非零屬性值才有意義,稱該屬性為非對稱屬性。

2、資料性質與型別

資料集的一般特性:

維數:資料集中屬性的數目。在分析高維資料時容易陷入維度災難(https://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/)

維度災難:增加更多特徵維度時,模型的效果反而下降的現象。【解釋】:隨著維數增加,資料在特徵空間中越來越稀疏,導致過擬合學習了噪聲和異常值。

 

 

 資料集的型別:

 

 3、數值質量

 

常見的資料質量問題:①噪聲 ②異常值③缺失值 ④重複值 ⑤不一致值

噪聲:是無關的資料物件。

異常值:是資料物件,但其特徵與資料集中大多數物件有顯著不同。

缺失值:

 

重複值:資料來源不同導致資料重複。

不一致值:同一屬性的格式的編碼 不一樣。

 

 4、資料相似性和相異性的度量

 

(1)二元向量的相似度

 

 

 (2)多元向量間的相似度——餘弦相似度

 

 

 (3)相關性——皮爾森相關

 

 

(4)相關性——卡方檢驗

 

(5)Euclidean距離

 

 (6)Minkowski距離

 

 (7)馬氏距離

 

 

 馬氏距離的優點:①馬氏距離不受量綱的影響;②馬氏距離還可以排除變數之間的相關性的干擾。

課堂小結