1. 程式人生 > >第五課:機器學習中的特徵工程

第五課:機器學習中的特徵工程

只是總結課程要點,特徵工程內容參見分類《feature engineering for machine learning》!

一、正負樣本不平衡處理方法

在這裡插入圖片描述

二、資料與特徵處理

  • 數值型
  • 類別型
  • 時間型
  • 文字型
    1)詞袋

    2)n-gram
    3)Tf-idf

    4)word2vec
    在這裡插入圖片描述
  • 統計特徵
  • 組合特徵

    以下圖為例:利用GBDT得到一棵樹,其中每若干個分枝都可以組合為一個特徵,例如:男-上海(利用2個分支組合了一個特徵,其中“男/上海”分別為各個分支分叉的condition)。類似的,也可以利用3個,或者更多的分支結點,組合為一個特徵。

三、特徵選擇

  • 過濾型
  • 包裹型
  • 嵌入型

四、others

1、歸一化:對行進行處理(single sample);
標準化:對列進行處理(single feature);
2、剔除outlier
利用“分位數”剔除outlier,如:選取1/4 - 3/4的資料,剔除其它資料;
3、missing value的處理
1)利用prediction填充missing value;
2)利用mean 填充missing value;
3)利用median 填充missing value;(median比mean更接近資料正常值?)