1. 程式人生 > >資料探勘資料清理常用trick

資料探勘資料清理常用trick

資料探勘資料清理、特徵工程常用trick

  1. 資料探勘總體流程
  2. 資料清理
  3. 特徵工程
  4. 特徵選擇
  5. 資料平衡度
  6. 模型設計與分析

    一、資料探勘總體流程

    資料探勘的一般流程一般如下:首先拿到資料先讀取資料進行總體觀察,然後進行資料清洗,包括對缺失值的多維處理、對離群點的剔除方法以及對字元、空格等的處理;其次進行特徵工程,包括根據所瞭解的資訊進行特徵構建、類別特徵編碼、組合特徵構建、特徵提取等;再次進行特徵選擇,過濾無用特徵;然後處理類別資料平衡度問題;最後就是模型的設計和分析了。

    二、資料清理

    1.缺失值的多維度處理
    –按列統計
    按列統計缺失值個數,通過畫圖得到各列的缺失比率。如缺失比率較大,比如大於百分之95,那麼說明這些列基本不攜帶有用資訊,酌情剔除。如缺失值比率中等,比如百分之五六十,如是類別型的,可增加一個“缺失”的類別,也可酌情用KNN跑出缺失值結果。如缺失值比率比較小,比如百分之5,則可考慮用中值填充。
    –按行統計
    按行統計每個樣本的屬性缺失值個數,將缺失值個數從小到大排序,可觀察到一些樣本有特別多的缺失屬性,則可認為是離群點,將其剔除。
    另外,缺失值的個數可以作為一個特徵,衡量使用者資訊的完善程度。

    2.剔除常變數
    對於數值特徵,可對沒個特徵求標準差,可以剔除標準差接近於0的特徵。

    3.離群點剔除
    除了根據屬性缺失的個數來提出離群點,還有一個常用的trick就是在原始資料上訓練xgboost,得到的xgb模型輸出特徵的重要性,取最重要的前n個特徵,統計每個特徵的缺失值個數,將屬性缺失特別多的樣本作為離群點剔除。

    4.字元、空格處理
    很多字元屬於同一類,但是有大小寫區分,則可統一轉為小寫或大寫。其中包含空格的字串也可能屬於同一類,則可將空格剔除。

未完待續。。。