特征工程處理
1、不均衡樣本的處理方法即評價指標
當樣本中正負樣本相差懸殊時,單純使用某一分類器分類或者準使用確率作為評價指標將使得模型在預測時不再work
因此會做一些處理,包括:
正樣本>>負樣本,且樣本數量較大,則采用下采樣或者欠采樣,對小樣本過采樣,對大樣本欠采樣
正樣本<<負樣本,且樣本數量不大,則可以
(1)嘗試采集更多的數據
(2)過采樣(比如圖像裏的旋轉、鏡像之類的)
(3)修改loss function
此外還有:
對小類錯分進行加權懲罰:
分治,將大樣本分到L個聚類中,每一類與小樣本訓練得到一分類器,L個分類器取平均或者投票
分層:
1、數值型的離散化
將連續的數值劃分為多個區間,比如讓座問題,判斷一個人的年齡小於6歲或者大於60歲,讓座,這時只用一個公式不能滿足兩頭的情況,因為函數是單調的
,因此將一列的年齡值分為3列,分別為區間0-6歲,6-60歲和60歲+,在把新的每一列當成一個特征去學習參數。
離散化,分箱或者分桶,樹模型不需要離散化,像邏輯回歸神經網絡之類的需要離散化
padans裏面的cut和qcut
2、類別型數據的處理
(1)one-hot編碼
(2)啞變量
(3)Hash與聚類處理
歸一化對行做處理,標準化對列做處理
(4)統計每個類別變量下各個target比例,轉成數值型
3、文本類型數據處理
(1)詞袋模型,不包含順序信息,比如李雷喜歡韓梅梅跟韓梅梅喜歡李雷,表達不出來
(2)n-gram模型,處了詞的信息還包含了順序信息,比如 ‘Welcome to beijing‘ ---> ‘Welcom‘, ‘to‘, ‘beijing‘, ‘Welcom to‘, ‘to beijing‘,2-gram兩兩相連
(3)TF-IDF,上述模型只統計頻次,沒能把詞的重要性表達出來,一個詞的重要程度隨著在文檔中出現的頻率增加而增大,隨著詞在整個語料庫中出現的次數的增
加而降低
(4)Word2Vec,與n-gram不同,將句子映射成稠密的向量
4、特征選擇和降維
特征選擇是去掉原來的特征向量中和結果關系不大的特征
(1)過濾型:評估單個特征跟結果之間的相關程度,如Pearson相關度、互信息等,缺點是沒有考慮到特征之間的關聯作用,有可能將有用的信息提出掉。
sklearn中的SelectKBest
(2)包裹型:典型的有遞歸特征刪除法,sklearn中的RFE
(3)嵌入型:一般使用L1正則化+LR/Linear SVR。L1正則化會得到稀疏解,那些不重要的特征被丟棄,天然的具有特征選擇功能
降維是做特征的計算組合成新的特征,PCA或者SVD一定程度上可以解決高緯度問題
5、
特征工程處理