1. 程式人生 > >機器學習中的特徵選擇和優缺點

機器學習中的特徵選擇和優缺點

特徵選擇和機器學習演算法兩者存在緊密的聯絡,根據特徵選擇中子集評價標準和後續學習演算法的結合

方式可分為嵌入式(embedded)、過濾式(filter)和封裝式(wraper)

1.嵌入式特徵選擇

在嵌入式特徵選擇中,特徵選擇演算法本身作為組成部分嵌入到學習演算法裡,最典型的就是決策樹演算法,如Quinlan的ID3,

C4.5以及Breiman的CART演算法等,決策樹演算法在樹增長過程的每個遞迴步都必須選擇一個特徵,將樣本劃分成較小的子集,

選擇特徵的一句通常是劃分後子節點的純度,劃分後子節點越純,則說明劃分效果越好,可見決策樹生成的過程也就是特徵選擇

的過程

2.過濾式特徵選擇

早期的特徵選擇演算法大多屬於過濾式特徵選擇,過濾式特徵選擇的評價標準從資料集本身的內在性質獲得,與特定的學習

演算法無關,因此具有具有較好的通用性。通常選擇和類別相關度大的特徵或者特徵子集。過濾式特徵選擇的研究者認為,相關度

較大的特徵或者特徵自己會在分類器上獲得較高的準確率,dash 和 liu把過濾式特徵選擇的評價標準分為四種,即距離度量,資訊度量,關聯度量

以及一致性度量

優點:演算法的通用性強,省去了分類器的訓練步驟,演算法複雜性低,因而適用於大規模資料集,可以快速去除大量不相關的特徵,

作為特徵的預篩選器非常合適的

缺點:由於演算法的評價標準獨立於特定的學習演算法,所選的特徵子集在分類準確率方面通常低於wrapper方法

3.封裝式特徵選擇

封裝式特徵選擇即wrapper方法利用學習演算法的效能來評價特徵自己的優劣,因此,對於一個待評價的特徵子集,wrapper方法需要

訓練一個分類器,根據分類器的效能對該特徵子集進行評價,wrapper方法中用以評價特徵的學習演算法是多種多樣的,例如決策樹、

神經網路、貝葉斯分類器、近鄰法以及支援向量機等等。huswh提出了一種利用遺傳演算法作為搜尋策略、決策樹的分類準確性作為

子集評價標準的wrapper方法,lil等人用遺傳演算法結合人工神經網路進行特徵選擇和分類,並取得了較好的實驗效果。inza等則利用貝葉斯

網路的效能作為自己評價標準,這些方法都是直接利用分類器的分類效能來評價特徵子集的優劣

優點:相對於filter方法,wrapper方法找到的特徵子集分類效能通常更好

缺點:wrapper方法選出的特徵通用性不強,當改變學習演算法時,需要針對該學習演算法重新進行特徵選擇,由於每次對子集的

評價都要進行分類器的訓練和測試,所以演算法計算複雜度很高,尤其對於大規模資料集來說,演算法的執行時間越長