1. 程式人生 > >資料探勘筆記(三)—資料預處理

資料探勘筆記(三)—資料預處理

1.原始資料存在的幾個問題:不一致;重複;含噪聲;維度高。

2.資料預處理包含資料清洗、資料整合、資料變換和資料歸約幾種方法。

3.資料探勘中使用的資料的原則

應該是從原始資料中選取合適的屬性作為資料探勘屬性,這個選取過程應參考的原則是:儘可能賦予屬性名和屬性值明確的含義;統一多資料來源的屬性值編碼;去除惟一屬性;去除重複性;去除可忽略欄位;合理選擇關聯欄位。

4.處理空缺值的方法:忽略該記錄;去掉屬性;手工填寫空缺值;使用預設值;使用屬性平均值;使用同類樣本平均值;預測最可能的值。

5.噪聲資料的處理方法:分箱;聚類;計算機和人工檢查結合;迴歸

6.分箱:分箱方法是一種簡單常用的預處理方法,通過考察相鄰資料來確定最終值。所謂“分箱”,實際上就是按照屬性值劃分的子區間,如果一個屬性值處於某個子區間範圍內,就稱把該屬性值放進這個子區間所代表的“箱子”內。把待處理的資料(某列屬性值)按照一定的規則放進一些箱子中,考察每一個箱子中的資料,採用某種方法分別對各個箱子中的資料進行處理。在採用分箱技術時,需要確定的兩個主要問題就是:如何分箱以及如何對每個箱子中的資料進行平滑處理。

分箱的方法:有4種:等深分箱法、等寬分箱法、最小熵法和使用者自定義區間法。

統一權重,也成等深分箱法,將資料集按記錄行數分箱,每箱具有相同的記錄數,每箱記錄數稱為箱子的深度。這是最簡單的一種分箱方法。

統一區間,也稱等寬分箱法,使資料集在整個屬性值的區間上平均分佈,即每個箱的區間範圍是一個常量,稱為箱子寬度。

使用者自定義區間,使用者可以根據需要自定義區間,當用戶明確希望觀察某些區間範圍內的資料分佈時,使用這種方法可以方便地幫助使用者達到目的。

例:客戶收入屬性income排序後的值(人民幣元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的結果如下。

統一權重:設定權重(箱子深度)為4,分箱後

箱1:800 1000 1200 1500

箱2:1500 1800 2000 2300 

箱3:2500 2800 3000 3500

箱4:4000 4500 4800 5000   

統一區間:設定區間範圍(箱子寬度)為1000元人民幣,分箱後

箱1:800 1000 1200 1500 1500 1800

箱2:2000 2300 2500 2800 3000

箱3:3500 4000 4500

箱4:4800 5000 

使用者自定義:如將客戶收入劃分為1000元以下、1000~2000、2000~3000、3000~4000和4000元以上幾組,分箱後

箱1:800 

箱2:1000 1200 1500 1500 1800 2000 

箱3:2300 2500 2800 3000  

箱4:3500 4000 

箱5:4500 4800 5000 

7.資料平滑方法:按平均值平滑、按邊界值平滑和按中值平滑。

⑴按平均值平滑 

對同一箱值中的資料求平均值,用平均值替代該箱子中的所有資料。 

⑵按邊界值平滑 

用距離較小的邊界值替代箱中每一資料。 

⑶按中值平滑 

取箱子的中值,用來替代箱子中的所有資料。 

8.聚類:將物理的或抽象物件的集合分組為由類似的物件組成的多個類。

找出並清除那些落在簇之外的值(孤立點),這些孤立點被視為噪聲。

9.迴歸;試圖發現兩個相關的變數之間的變化模式,通過使資料適合一個函式來平滑資料,即通過建立數學模型來預測下一個數值,包括線性迴歸和非線性迴歸。   

10.資料整合:將多檔案或者多資料庫中的異構資料進行合併,然後存放在一個一致的資料儲存中。考慮以下幾個問題: 1.模式匹配2.資料冗餘3.資料值衝突 

11. 資料變換:1.平滑2.聚集3.資料概化4.規範化(1)最小-最大規範化(2)零-均值規範化(3)小數定標規範化5.屬性構造

12.資料整合:將多檔案或者多資料庫中的異構資料進行合併,然後存放在一個一致的資料儲存中。考慮以下幾個問題: 1.模式匹配2.資料冗餘3.資料值衝突 

13.資料歸約:目的是為了獲得比原始資料小的多的,但不破壞資料完整性的挖掘資料集,該資料集可以得到與原始資料相同的挖掘結果。 

資料歸約的方法: 1.資料立方體聚集:把聚集的方法用於資料立方體。2.維歸約:檢測並刪除不相關、弱相關或冗餘屬性。3.資料壓縮:選擇正確的編碼壓縮資料集。4.數值壓縮:用較小的資料表示資料,或採用較短的資料單位,或者用資料模型代表資料。5.離散化和概念分層生成:使連續的資料離散化,用確定的有限個區段值代替原始值;概念分層是指用較高層次的概念替換低層次的概念,以此來減少取值個數。

14.資料立方體聚集 :是資料的多維建模和表示,由維和事實組成。 

維歸約:去掉不相關的屬性,減少資料探勘處理的資料量。 

屬性子集選擇的基本方法包括以下幾種: 1.逐步向前選擇2.逐步向後刪除3.向前選擇和向後刪除結合4.判定樹歸納5.基於統計分析的歸約   

資料壓縮:方法分為兩類:無失真壓縮和有失真壓縮

數值歸約常用的方法: 1.直方圖2.聚類3.抽樣:不放回簡單隨機抽樣、放回簡單隨機抽樣、聚類抽樣和分層抽樣4.線性迴歸5.非線性迴歸     

15.資料變換涉及以下幾個方面:1.平滑2.聚集3.資料概化4.規範化(1)最小-最大規範化(2)零-均值規範化(3)小數定標規範化5.屬性構造

*規範化(1)最小—最大規範化。原取值區間 [old_minold_max],規範化後的新的取值區間[new_minnew_max]

x’=  其中:x是屬性的真實值,x’是規範化後的值。

例如:“客戶背景資料”表中的客戶月收入income屬性的實際值範圍為[1200098000],要把這個屬性值規範到[01],對屬性值73600應用上述公式:

x’=(1.0-0)+0=0.716

根據精度要求保留小數(假設精度要求0.01),最終取值0.72就是屬性值73600規範化後的值。

 (2)零—均值規範化(zscore規範化),是根據屬性值的平均值和標準差進行規範化,即:

x’=   =  =    為所有樣本屬性值的平均值,為樣本的標準差。當屬性值範圍未知的時候,可以使用此方法進行規範化。

    例:假設某屬性的平均值和標準差分別為8025,採用零-均值規範化66為:x’==-0.56

(3)小數定標規範化:通過移動屬性A的小數點位置進行規範化 。

x’= 為滿足式<1的最小整數。

例:假設某屬性規範化前的取值範圍為[-120110],採用小數定標規範化66。由於該屬性的最大絕對值為120,則由<1可得出=3,因此,66規範化後為:x’==0.066