【數字挖掘學習筆記】第二章__資料
阿新 • • 發佈:2022-04-18
1、資料型別與物件
什麼是資料?
資料是資料物件的集合;資料物件用一組刻畫其基本性質的屬性描述;屬性是物件的性質或者特徵;
屬性值:為了分析屬性,我們為他們賦予的數字或符號,稱為屬性值。
屬性分為離散型和連續型。
非對稱屬性:只重視少部分非零屬性值才有意義,稱該屬性為非對稱屬性。
2、資料性質與型別
資料集的一般特性:
維數:資料集中屬性的數目。在分析高維資料時容易陷入維度災難(https://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/)
維度災難:增加更多特徵維度時,模型的效果反而下降的現象。【解釋】:隨著維數增加,資料在特徵空間中越來越稀疏,導致過擬合學習了噪聲和異常值。
資料集的型別:
3、數值質量
常見的資料質量問題:①噪聲 ②異常值③缺失值 ④重複值 ⑤不一致值
噪聲:是無關的資料物件。
異常值:是資料物件,但其特徵與資料集中大多數物件有顯著不同。
缺失值:
重複值:資料來源不同導致資料重複。
不一致值:同一屬性的格式的編碼 不一樣。
4、資料相似性和相異性的度量
(1)二元向量的相似度
(2)多元向量間的相似度——餘弦相似度
(3)相關性——皮爾森相關
(4)相關性——卡方檢驗
(5)Euclidean距離
(6)Minkowski距離
(7)馬氏距離
馬氏距離的優點:①馬氏距離不受量綱的影響;②馬氏距離還可以排除變數之間的相關性的干擾。
課堂小結