1. 程式人生 > 其它 >機器學習2.1-機器學習中的特徵選擇

機器學習2.1-機器學習中的特徵選擇

特徵提取演算法

特徵提取演算法分為特徵選擇和特徵抽取兩大類

特徵選擇

常採用特徵選擇方法。常見的六種特徵選擇方法:

  1. DF(Document Frequency) 文件頻率
    DF:統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性

  2. MI(Mutual Information) 互資訊法
    互資訊法用於衡量特徵詞與文件類別直接的資訊量。
    如果某個特徵詞的頻率很低,那麼互資訊得分就會很大,因此互資訊法傾向”低頻”的特徵詞。
    相對的詞頻很高的詞,得分就會變低,如果這詞攜帶了很高的資訊量,互資訊法就會變得低效。

  3. (Information Gain) 資訊增益法
    通過某個特徵詞的缺失與存在的兩種情況下,語料中前後資訊的增加,衡量某個特徵詞的重要性。

  4. CHI(Chi-square) 卡方檢驗法
    利用了統計學中的”假設檢驗”的基本思想:首先假設特徵詞與類別直接是不相關的
    如果利用CHI分佈計算出的檢驗值偏離閾值越大,那麼更有信心否定原假設,接受原假設的備則假設:特徵詞與類別有著很高的關聯度。

  5. WLLR(Weighted Log Likelihood Ration)加權對數似然

  6. WFO(Weighted Frequency and Odds)加權頻率和可能性

特徵抽取(降維)

PCA等