SVM多核學習方法簡介

阿新 • • 發佈：2019-02-16

作者：Walker

SVM是機器學習有監督學習的一種方法，常用於解決分類問題，其基本原理是：在特徵空間裡尋找一個超平面，以最小的錯分率把正負樣本分開。因為SVM既能達到工業界的要求，機器學習研究者又能知道其背後的原理，所以SVM有著舉足輕重的地位。

但是我們之前接觸過的SVM都是單核的，即它是基於單個特徵空間的。在實際應用中往往需要根據我們的經驗來選擇不同的核函式（如：高斯核函式、多項式核函式等）、指定不同的引數，這樣不僅不方便而且當資料集的特徵是異構時，效果也沒有那麼好。正是基於SVM單核學習存在的上述問題，同時利用多個核函式進行對映的多核學習模型（MKL）應用而生。

多核模型比單個核函式具有更高的靈活性。在多核對映的背景下，高維空間成為由多個特徵空間組合而成的組合空間。由於組合空間充分發揮了各個基本核的不同特徵對映能力，能夠將異構資料的不同特徵分量分別通過相應的核函式得到解決。目前主流的多核學習方法主要包括合成核方法、多尺度核方法和無限核方法。其具體流程如圖1所示：

圖1 多核學習流程圖

接下來我們以二分類問題為例，為大家簡單介紹多核學習方法。令訓練資料集為X={(x₁,y₁),(x₂,y₂),(x₃,y₃)…(x_n,y_n)}，其中X_i是輸入特徵，且X_i∈R^d，i= 1,2, …, N，Y_i∈{+1, −1}是類標籤。SVM 演算法目標在於最大化間隔，其模型的原始問題可以表示為：

其中，w是待求的權重向量，ζ_i與C分別是鬆弛變數和懲罰係數。根據拉格朗日對偶性以及 KKT 條件，引入核函式K( X_i, X_j): Rn×Rn → R，原始問題也可以轉換成如下最優化的形式：

其中，ai與aj為拉格朗日乘子，核函式K( Xi, Xj)=φ(xi) xφ(xj)。核方法的思想就是，在學習與預測中不顯示地定義對映函式φ(xi) ，只定義核函式K( Xi, Xj)，直接在原低維空間中計算高維空間中的向量內積，既實現低維樣本空間到高維特徵空間的對映，又不增加計算複雜量。

多核學習方法是單核 SVM 的拓展，其目標是確定 M 個個核函式的最優組合，使得間距最大，可以用如下優化問題表示：

其中∆= {θ∈ ℝ+|θ^Te_M=1},表示 M 個核函式的凸組合的係數，e_M是一個向量，M個元素全是 1，K(θ)=∑^M_j=1θ_jk_j(∙,∙)代表最終的核函式，其中k_j(∙,∙)是第j個核函式。與單核 SVM 一樣，可以將上式如下轉化：

其中K^j∈ R^NxN,Ω={a|a∈[0,C]^N},“∗”被定義為向量的點積，即(1,0)∗(2,3) = (1 ×2 ,0×3)=(2,0)。通過對比 MKL 與單核 SVM 所對應的優化問題形式，求解多核學習問題的計算複雜度與難度會遠大於單核 SVM，所以研究出一種高效且穩定的演算法來解決傳統多核學習中的優化難題，仍然很具有挑戰性。

綜上所示，儘管多核學習在解決一些異構資料集問題上表現出了非常優秀的效能，但不得不說效率是多核學習發展的最大瓶頸。首先，空間方面，多核學習演算法由於需要計算各個核矩陣對應的核組合係數，需要多個核矩陣共同參加運算。也就是說，多個核矩陣需要同時儲存在記憶體中，如果樣本的個數過多，那麼核矩陣的維數也會非常大，如果核的個數也很多，這無疑會佔用很大的記憶體空間。其次，時間方面，傳統的求解核組合引數的方法即是轉化為SDP優化問題求解，而求解SDP問題需要使用內點法，非常耗費時間，儘管後續的一些改進演算法能在耗費的時間上有所減少，但依然不能有效的降低時間複雜度。高耗的時間和空間複雜度是導致多核學習演算法不能廣泛應用的一個重要原因。

下篇預告：不同核學習方法的研究。

參考文獻：Research on Multiple Kernel Boosting Learning Algorithm

Fast Multiple Kernel Learning for Classification and Application

Research on Multiple Kernel Learning Algorithms and Their Applications

SVM多核學習方法簡介

SVM多核學習方法簡介

不平衡數據下的機器學習方法簡介 imbalanced time series classification

Multi-task learning（多工學習）簡介

統計學習方法筆記（三）統計學習方法簡介

不平衡資料下的機器學習方法簡介

統計學習方法筆記（一）統計學習方法簡介

【iOS開發-51】案例學習：動畫新寫法、刪除子視圖、視圖順序、延遲方法、button多功能使用方法及icon圖標和啟動頁設置

Python 學習之文件對象的屬性和方法簡介

雲計算網絡安全學習方法分享：溫故知新多交流

python學習筆記- day10-【問題： python為什麽python的多線程不能利用多核CPU？】

Linux內核學習筆記（2）-- 父進程和子進程及它們的訪問方法

OpenCV3 SVM ANN Adaboost KNN 隨機森林等機器學習方法對OCR分類

多工學習概述論文：從定義和方法到應用和原理分析

為什麼那麼多自學Python的放棄了？斯坦福教授學習方法大揭祕！ python 網際網路斯坦福大學

統計學習方法_支援向量機SVM實現

機器學習之python入門指南（十一）numpy常用方法簡介

svm常用核函式及選擇核函式的方法

《統計學習方法》學習之三：SVM

sklearn學習筆記（3）svm多分類

統計學習方法：核函式（Kernel function）

SVM多核學習方法簡介

相關推薦