機器學習：核函式和核矩陣簡介

阿新 • • 發佈：2019-01-27

核函式也就是一種函式，本質上跟其他常見的函式（如冪函式）是一樣的。我們知道，冪函式有它的特點，形如 $y = x^{a}$ 的函式才能稱為冪函式。同樣，核函式也有他的特點，只不過它的特點更復雜一點，滿足以下要求的函式才能稱為核函式（定理）：

令 $\chi$ 為輸入空間， $\kappa (*,*)$ 是定義在 $\chi \ast \chi$ 上的對稱函式，則 $\kappa$ 是核函式當且僅當對於任意資料 $D = \{x_{1},x_{2},...,x_{m}\}$ ，核矩陣K總是半正定的：

$K = \begin{bmatrix} \kappa (x_{1},x_{1}) & . & . & . & \kappa (x_{1},x_{m}) \\ . & . & . & . & .\\ . & . & . & . & .\\ . & . & . & . & .\\ \kappa (x_{m},x_{1}) & . & . & . & \kappa (x_{m},x_{m}) \end{bmatrix}$ .

上面的定理表明，只要一個對稱函式對應的核矩陣半正定，它就能作為核函式。

常用的核函式有：

核函式的作用，就一句話：計算樣本在高維空間的內積。

假如出於某些原因，我們要將樣本從原始空間對映到高維空間（如在低維空間樣本線性不可分，需要對映到高維空間產生線性可分的樣本）。假設對映為 $\phi$

， $\phi (x)$ 表示x對映後的特徵向量。假設在高維空間中，正好涉及到計算內積： $\left \langle \phi (x_{i}),\phi (x_{j}) \right \rangle= \phi (x_{i})^{T}\phi (x_{j})$ 。這時，就可以引入核函式（涉及選擇什麼核函式）：

$\kappa (x_{i},x_{j}) = \left \langle \phi (x_{i}),\phi (x_{j}) \right \rangle= \phi (x_{i})^{T}\phi (x_{j})$ .

上式將 $x_{i},x_{j}$ 在高維空間的內積轉化到在原始空間計算。那為什麼不直接在對映後的高維空間計算？原因有兩點：

通常我們不知道對映 $\phi$ 的具體形式；
對映後的空間維數可能非常高，甚至無限維，直接計算開銷太大，十分困難.

這就是核函式的作用。

上面提到有5種常用的核函式，選擇了不同的核函式，意味選擇了不同的某種對映。因為我們不知道對映的具體形式，所以我們並不知道什麼樣的核函式合適。核函式的選擇成為演算法的“變數”。

核函式的選擇有一些基本經驗：例如對文字資料通常採用線性核，情況不明時可先嚐試高斯核。線性核和高斯核也是最為常用的核函式。

參考資料：周志華《機器學習》

機器學習：核函式和核矩陣簡介

機器學習：核函式和核矩陣簡介

Python機器學習：5.6 使用核PCA進行非線性映射

機器學習：模型評估和選擇

機器學習：線性迴歸和嶺迴歸入門程式碼

圖解機器學習：神經網路和 TensorFlow 的文字分類

機器學習：梯度下降和牛頓法

機器學習：生成模型和判別模型

機器學習：交叉驗證和模型選擇與Python程式碼實現

機器學習：探索資料和資料預處理

機器學習：核方法和soft svm

機器學習：利用核函式進行非線性分類

Python機器學習：5.9 sklearn中的核PCA

機器學習：矩陣的秩和矩陣的四個子空間

機器學習中的核函式與核方法（是什麼？為什麼？怎麼做？）

機器學習 --- 支援向量機的核函式

機器學習-核函式（核模型）

機器學習中的特徵變換(核函式)

吳恩達機器學習學習筆記之二：代價函式和梯度下降演算法

機器學習----支援向量機（核函式）

斯坦福大學公開課機器學習： advice for applying machine learning | regularization and bais/variance（機器學習中方差和偏差如何相互影響、以及和算法的正則化之間的相互關系）

機器學習：核函式和核矩陣簡介

相關推薦