資料探勘資料清理常用trick
阿新 • • 發佈:2019-01-25
資料探勘資料清理、特徵工程常用trick
- 資料探勘總體流程
- 資料清理
- 特徵工程
- 特徵選擇
- 資料平衡度
模型設計與分析
一、資料探勘總體流程
資料探勘的一般流程一般如下:首先拿到資料先讀取資料進行總體觀察,然後進行資料清洗,包括對缺失值的多維處理、對離群點的剔除方法以及對字元、空格等的處理;其次進行特徵工程,包括根據所瞭解的資訊進行特徵構建、類別特徵編碼、組合特徵構建、特徵提取等;再次進行特徵選擇,過濾無用特徵;然後處理類別資料平衡度問題;最後就是模型的設計和分析了。
二、資料清理
1.缺失值的多維度處理
–按列統計
按列統計缺失值個數,通過畫圖得到各列的缺失比率。如缺失比率較大,比如大於百分之95,那麼說明這些列基本不攜帶有用資訊,酌情剔除。如缺失值比率中等,比如百分之五六十,如是類別型的,可增加一個“缺失”的類別,也可酌情用KNN跑出缺失值結果。如缺失值比率比較小,比如百分之5,則可考慮用中值填充。
–按行統計
按行統計每個樣本的屬性缺失值個數,將缺失值個數從小到大排序,可觀察到一些樣本有特別多的缺失屬性,則可認為是離群點,將其剔除。
另外,缺失值的個數可以作為一個特徵,衡量使用者資訊的完善程度。2.剔除常變數
對於數值特徵,可對沒個特徵求標準差,可以剔除標準差接近於0的特徵。3.離群點剔除
除了根據屬性缺失的個數來提出離群點,還有一個常用的trick就是在原始資料上訓練xgboost,得到的xgb模型輸出特徵的重要性,取最重要的前n個特徵,統計每個特徵的缺失值個數,將屬性缺失特別多的樣本作為離群點剔除。4.字元、空格處理
很多字元屬於同一類,但是有大小寫區分,則可統一轉為小寫或大寫。其中包含空格的字串也可能屬於同一類,則可將空格剔除。
未完待續。。。