機器學習經典演算法總結（3）——特徵選擇

阿新 • • 發佈：2019-02-07

一、特徵的分類

1. 相關特徵：對當前學習任務有用的屬性。

2. 無關特徵：對當前學習任務沒有用的屬性。

3. 冗餘特徵：包含的資訊能從其他特徵中推演出來，冗餘特徵有時候不起作用，有時候則是有益的，對應了學習任務所需的“中間變數”。

二、特徵選擇

1. 概念：從給定的特徵集合中選擇出相關特徵的子集的過程。

2. 為什麼要進行特徵選擇？

（1）減輕維數災難問題

（2）降低學習任務的難度

3. 處理高維資料的兩大主流技術：特徵選擇和降維

4. 特徵選擇的簡單描述

從初始的特徵集合中產生一個“候選子集”，評價他的好壞，基於評價結果產生的下一個候選子集，再對其進行評價，迴圈進行直到無法找到更好的候選子集為止。

5. 兩個關鍵環節：

（1）“子集搜尋”問題——如何根據評價結果獲取下一個候選子集？

前向搜尋、後向搜尋、雙向搜尋；都是基於貪心的策略。

（2）“子集評價”問題——如何評價候選子集的好壞？

計算資訊增益、計算資訊熵、其他能劃分差異的機制……

6. 將特徵子集搜尋和子集評價機制相結合，即可得到特徵選擇方法。

三、特徵選擇方法分類

常見的特徵選擇方法大致分為三類：過濾式、包裹式、嵌入式。

1. 過濾式選擇（filter）

過濾式方法先對資料集進行特徵選擇，再訓練學習器，特徵選擇過程與後續學習器無關。

Relief是一種著名的過濾式特徵選擇方法，設計了一種相關統計量來度量特徵重要性。適用於二分類問題。

2. 包裹式選擇（

wrapper）

與過濾式機器學習不考慮後續學習器不同，包裹式特徵選擇直接把最終要使用的學習器效能作為特徵子集的評價標準。

由於包裹式特徵選擇的方法直接針對給定學習器進行優化，包裹式特徵選擇比過濾式要好，計算開銷也要大得多。

LVW是一種典型的方法。採用隨機策略搜尋特徵子集，而每次特徵子集的評價都需要訓練學習器，開銷很大。

3. 嵌入式選擇（embedding）

嵌入式特徵選擇將特徵選擇過程和機器訓練過程融合為一體。兩者在同一優化過程中完成，即在學習器訓練過程中自動進行了特徵選擇。

w取得稀疏解意味著初始的d個特徵中僅有對應著w的非零分量的特徵才會出現在最終模型中

，於是求解L₁範數正則化的結果是得到了僅採用一部分初始特徵的模型；換言之，基於L₁正則化的學習方法就是一種嵌入式選擇方法。

機器學習經典演算法總結（3）——特徵選擇

一、特徵的分類1. 相關特徵：對當前學習任務有用的屬性。2. 無關特徵：對當前學習任務沒有用的屬性。3. 冗餘特徵：包含的資訊能從其他特徵中推演出來，冗餘特徵有時候不起作用，有時候則是有益的，對應了學習任務所需的“中間變數”。二、特徵選擇1. 概念：從給定的特徵集合中選擇出相

機器學習常見演算法總結（面試用）

樸素貝葉斯參考[1] 事件A和B同時發生的概率為在A發生的情況下發生B或者在B發生的情況下發生A P(A∩B)=P(A)∗P(B|A)=P(B)∗P(A|B) 所以有： P(A|B)=P(B|A)∗P(A)P(B) 對於給出的待分

機器學習基本概念總結（轉載）

9.png png log images es2017 enter 08-18 機器學習 style 機器學習基本概念總結（轉載）

輕松入門機器學習之概念總結（二）

消息目的作者固定 erp 效率 dev 常用度量歡迎大家前往雲加社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：許敏接上篇：機器學習概念總結筆記（一） 8）邏輯回歸 logistic回歸又稱logistic回歸分析，是一種廣義的線性回歸分析模型，常用於數據挖掘

吳恩達《機器學習》課程總結（7）正則化

額外分享哪些 TP 回歸分享圖片表現例子兩個 7.1過擬合的問題訓練集表現良好，測試集表現差。魯棒性差。以下是兩個例子（一個是回歸問題，一個是分類問題）解決辦法：（1）丟棄一些不能幫助我們正確預測的特征。可以使用工選擇保留哪些特征，或者使用一些模型選擇

吳恩達《機器學習》課程總結（15）異常檢測

是否 5.6 問題 com 結果平移分享出現問題計算過程 15.1問題的動機將正常的樣本繪制成圖表（假設可以），如下圖所示：當新的測試樣本同樣繪制到圖標上，如果偏離中心越遠說明越可能不正常，使用某個可能性閾值，當低於正常可能性閾值時判斷其為異常，然後做進一步的

機器學習面試題總結（轉）

原文連結： https://blog.csdn.net/sinat_35512245/article/details/78796328 1.請簡要介紹下SVM。 SVM，全稱是support vector machine，中文名叫支援向量機。SVM是一個面向資料的分類演算法，它的目標是為確定一個

機器學習技法筆記總結（一）SVM系列總結及實戰

機器學技法筆記總結（一）SVM系列總結及實戰 1、原理總結在機器學習課程的第1-6課，主要學習了SVM支援向量機。 SVM是一種二類分類模型。它的基本模型是在特徵空間中尋找間隔最大化的分離超平面的線性分類器。（1）當訓練樣本線性可分時，通過硬間隔最大化，學習

機器學習經典演算法總結一.線性迴歸

一.基本形式 hθ(x)=θ0+θ1x1+θ2x2+....+θnxn=θTxh_θ(x)=θ_0+θ_1x_1+θ_2x_2+....+θ_nx_n=θ^Txhθ(x)=θ0+θ1x1+θ2x2+....+θnxn=θTx 二.損失函式最常用

機器學習導圖系列（3）：過程

系統成了 ron 結果 git 高清一個網絡模型模型機器學習導圖系列教程旨在幫助引導開發者對機器學習知識網絡有一個系統的概念，其中有些具體釋義並未完善，需要開發者自己探索才能對具體知識有深入的掌握。本項目靈感來自Daniel Formoso的github開源項目。

Python機器學習筆記：SVM（3）——證明SVM

　　說實話，凡是涉及到要證明的東西（理論），一般都不好惹。絕大多數時候，看懂一個東西不難，但證明一個東西則需要點數學功底，進一步，證明一個東西也不是特別難，難的是從零開始發明這個東西的時候，則顯得艱難（因為任何時代，大部分人的研究所得都不過是基於前人的研究成果，前人所做的是開創性的工作，而這往往是最艱難最有價

人臉識別經典演算法實現（一）——特徵臉法

近來想要做一做人臉識別相關的內容，主要是想整合一個系統，看到opencv已經集成了三種性能較好的演算法，但是還是想自己動手試一下，畢竟演算法都比較初級。操作環境：python2.7 第三方庫：opencv for python、numpy 第一種比較經典的演算法

機器學習十大經典演算法：（2）k-means演算法

1.基本Kmeans演算法[1] [cpp] view plain copy 選擇K個點作為初始質心 repeat

機器學習十大經典演算法：（1）C4.5演算法

C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法. C4.5演算法繼承了ID3演算法的優點，並在以下幾方面對ID3演算法進行了改進： 1)用資訊增益率來選擇屬性，克服了用資訊增益選擇屬性時偏向選擇取值多的屬性的不足； &nbs

Python3實現機器學習經典演算法（四）C4.5決策樹

一、C4.5決策樹概述　　C4.5決策樹是ID3決策樹的改進演算法，它解決了ID3決策樹無法處理連續型資料的問題以及ID3決策樹在使用資訊增益劃分資料集的時候傾向於選擇屬性分支更多的屬性的問題。它的大部分流程和ID3決策樹是相同的或者相似的，可以參考我的上一篇部落格：https://www.cnblogs.

機器學習演算法總結（二）調參技巧

偏差和方差在統計學習框架下，Error = Bias + Variance。Error指的模型的預測錯誤率，由兩部分組成，一部分是由於模型太簡單而帶來的估計不準確的部分（Bias），另一部分是由於模型太複雜而帶來的更大的變化空間和不確定性（Variance）。如果要降低模型的Bi

機器學習經典演算法詳解及Python實現--線性迴歸（Linear Regression）演算法

（一）認識迴歸迴歸是統計學中最有力的工具之一。機器學習監督學習演算法分為分類演算法和迴歸演算法兩種，其實就是根據類別標籤分佈型別為離散型、連續性而定義的。顧名思義，分類演算法用於離散型分佈預測，如前

機器學習演算法總結（三）

1、決策樹決策樹是通過一系列規則對資料進行分類的過程。它提供一種在什麼條件下會得到什麼值的類似規則的方法。決策樹分為分類樹和迴歸樹兩種，分類樹對離散變數做決策樹，迴歸樹對連續變數做決策樹。 1.2 決策樹的學習過程一棵決策樹的生成過程主要分為以下3個部

機器學習經典演算法詳解及Python實現--決策樹（Decision Tree）

（一）認識決策樹 1，決策樹分類原理決策樹是通過一系列規則對資料進行分類的過程。它提供一種在什麼條件下會得到什麼值的類似規則的方法。決策樹分為分類樹和迴歸樹兩種，分類樹對離散變數做決策樹，迴歸樹對連續變數做決策樹。近來的調查表明決策樹也是最經常使用的資料探勘演算法，它

機器學習經典演算法（三）--指數加權平均

機器學習經典演算法（三）–指數加權平均指數加權平均（Exponentially Weighted Averages）是一些改進梯度下降法重要理論，如上篇博文梯度下降法（2）提到的動量梯度下降法，RMSprop、Adam等都用到了

機器學習經典演算法總結（3）——特徵選擇

相關推薦