HCIE資料探勘筆記-005資料探勘專業名詞
資料物件和屬性類別:
資料一般有噪聲,數量龐大,且來自不同的資料來源
資料集由資料物件組成,一個資料物件代表一個實體
資料物件:樣本、例項、資料點、物件
資料物件以資料元組的形式存放在資料庫中,資料庫的行對應於資料物件,列對應於屬性
屬性是一個資料欄位,與維、特徵、變數對應
維 用於資料倉庫中
特徵 用於機器學習中
變數 用於統計學中
屬性的型別 值域
屬性有四大類:
標稱屬性:只代表某種類別,不具有意義的序(無排序)例如第一食堂、第二食堂這種也是不具有意義的序
二元屬性:標稱屬性的一種特殊情況 ,只有0/1
序數屬性:順序有意義,相繼值之間的差是未知的,各值之間可以相互比較,但不一定是數字(比如白金會員、超級會員等)
數值屬性:定量的可度量的量,用整數或者實數表示。
區間標度屬性:以相等的單位尺度度量
比例標度屬性:具有固定零點的數值屬性
數值屬性和序數屬性之間在某些情況下可以相互轉換
額外兩種型別:
離散型:有限個/無限個可數個數
連續性:資料具有連續性
離散型資料與連續型資料在一些情況下也可以相互轉換(區間分割/加值等,一般把連續轉換為離散)
資料集型別:資料物件有時叫做點
訓練集:用於訓練模型
測試集:用於測試模型,對比預測值與真實值。
驗證集:用於調參,與測試集的區別為:驗證集可以反覆用,測試集僅用於一次測試
一般訓練:測試:驗證為6:2:2
當資料量很大,需使用GPU加速時:訓練、測試、驗證的比值為:8:1:1
在不適用驗證集時訓練集測試集比:
總資料在1w以下:7:3
總資料在1w以下:8:2
資料量大到需使用GPU加速訓練:9:1
資料集的維度:一維資料、二維資料、多維資料、高維資料
資料集的稀疏性:在矩陣中,如果數值為0的元素遠大於非0元素的個數,非0元素排列無規律十,稱為稀疏矩陣;若非零元素佔大多數時,稱為稠密矩陣。(IE考試中記住概念即可)稀疏矩陣可以用於提升效能
資料集的解析度:灰度計算、圖片壓縮等(使用K-means)
資料彙總統計:量化,用單個數或數的小集合捕獲可能很大的值集的各種特徵
中心趨勢度量:均值、中位數和眾數
度量資料散步:極差、四分位數(四等分位:第25個百分位數、第50個百分位數、第75個百分位數、第100個百分位數)、方差、標準差、四分位數極差