1. 程式人生 > 其它 >HCIE資料探勘筆記-005資料探勘專業名詞

HCIE資料探勘筆記-005資料探勘專業名詞

資料物件和屬性類別:

 資料一般有噪聲,數量龐大,且來自不同的資料來源

 資料集資料物件組成,一個資料物件代表一個實體

 資料物件:樣本、例項、資料點、物件  

 資料物件資料元組的形式存放在資料庫中,資料庫對應於資料物件對應於屬性

 屬性是一個資料欄位,與特徵變數對應

  用於資料倉庫

 特徵 用於機器學習

 變數 用於統計學

 屬性的型別 值域

 屬性有四大類: 

  標稱屬性:只代表某種類別,不具有意義的序(無排序)例如第一食堂、第二食堂這種也是不具有意義的序

  二元屬性:標稱屬性的一種特殊情況 ,只有0/1

  序數屬性:順序有意義,相繼值之間的差是未知的,各值之間可以相互比較,但不一定是數字(比如白金會員、超級會員等)

  數值屬性:定量的可度量的量,用整數或者實數表示。

   區間標度屬性:以相等的單位尺度度量

   比例標度屬性:具有固定零點的數值屬性

  數值屬性和序數屬性之間在某些情況下可以相互轉換

 額外兩種型別:

  離散型:有限個/無限個可數個數

  連續性:資料具有連續性

  離散型資料與連續型資料在一些情況下也可以相互轉換(區間分割/加值等,一般把連續轉換為離散)

 資料集型別:資料物件有時叫做

  訓練集:用於訓練模型

  測試集:用於測試模型,對比預測值與真實值。

  驗證集:用於調參,與測試集的區別為:驗證集可以反覆用,測試集僅用於一次測試

  一般訓練:測試:驗證為6:2:2

  當資料量很大,需使用GPU加速時:訓練、測試、驗證的比值為:8:1:1

  在不適用驗證集時訓練集測試集比:

   總資料在1w以下:7:3

   總資料在1w以下:8:2

   資料量大到需使用GPU加速訓練:9:1

  資料集的維度:一維資料、二維資料、多維資料、高維資料

  資料集的稀疏性:在矩陣中,如果數值為0的元素遠大於非0元素的個數,非0元素排列無規律十,稱為稀疏矩陣;若非零元素佔大多數時,稱為稠密矩陣。(IE考試中記住概念即可)稀疏矩陣可以用於提升效能

  資料集的解析度:灰度計算、圖片壓縮等(使用K-means)

  資料彙總統計:量化,用單個數或數的小集合捕獲可能很大的值集的各種特徵

   中心趨勢度量:均值、中位數和眾數

 

    度量資料散步:極差、四分位數(四等分位:第25個百分位數、第50個百分位數、第75個百分位數、第100個百分位數)、方差、標準差、四分位數極差