SVM 的核函式選擇和調參

阿新 • • 發佈：2019-02-20

本文結構：
1. 什麼是核函式
2. 都有哪些 & 如何選擇
3. 調參

1. 什麼是核函式

核函式形式 K(x, y) = <f(x), f(y)>，
其中 x, y  為 n 維，f 為 n 維到 m 維的對映，<f(x), f(y)> 表示內積。

在用SVM處理問題時，如果資料線性不可分，希望通過將輸入空間內線性不可分的資料對映到一個高維的特徵空間內，使資料在特徵空間內是線性可分的，這個對映記作 ϕ(x)，

之後優化問題中就會有內積 ϕi⋅ϕj，
這個內積的計算維度會非常大，因此引入了核函式，
kernel 可以幫我們很快地做一些計算, 否則將需要在高維空間中進行計算。

2. 都有哪些 & 如何選擇

下表列出了 9 種核函式以及它們的用處和公式，常用的為其中的前四個：linear，Polynomial，RBF，Sigmoid

核函式	用處	公式
linear kernel	線性可分時，特徵數量多時，樣本數量多再補充一些特徵時，linear kernel可以是RBF kernel的特殊情況
Polynomial kernel	image processing，引數比RBF多，取值範圍是(0,inf)
Gaussian radial basis function (RBF)	通用，線性不可分時，特徵維數少樣本數量正常時，在沒有先驗知識時用，取值在[0,1]
Sigmoid kernel	生成神經網路，在某些引數下和RBF很像，可能在某些引數下是無效的
Gaussian kernel	通用，在沒有先驗知識時用
Laplace RBF kernel	通用，在沒有先驗知識時用
Hyperbolic tangent kernel	neural networks中用
Bessel function of the first kind Kernel	可消除函式中的交叉項
ANOVA radial basis kernel	迴歸問題
Linear splines kernel in one-dimension	text categorization，迴歸問題，處理大型稀疏向量

其中 linear kernel 和 RBF kernel 線上性可分和不可分的對比視覺化例子如下：

3. 調參

在 sklearn 中可以用 grid search 找到合適的 kernel，以及它們的 gamma，C 等引數，那麼來看看各 kernel 主要調節的引數是哪些：

核函式	公式	調參
linear kernel
Polynomial kernel		-d：多項式核函式的最高次項次數，-g：gamma引數，-r：核函式中的coef0
Gaussian radial basis function (RBF)		-g：gamma引數，預設值是1/k
Sigmoid kernel		-g：gamma引數，-r：核函式中的coef0

其中有兩個重要的引數，即 C（懲罰係數）和 gamma，
gamma 越大，支援向量越少，gamma 越小，支援向量越多。
而支援向量的個數影響訓練和預測的速度。
C 越高，容易過擬合。C 越小，容易欠擬合。

推薦閱讀
歷史技術博文連結彙總
也許可以找到你想要的：
[入門問題][TensorFlow][深度學習][強化學習][神經網路][機器學習][自然語言處理][聊天機器人]

SVM 的核函式選擇和調參

本文結構： 1. 什麼是核函式 2. 都有哪些 & 如何選擇 3. 調參 1. 什麼是核函式核函式形式 K(x, y) = <f(x), f(y)>，其中 x, y 為 n 維，f 為 n 維到 m 維的對映，&l

Spark 模型選擇和調參

# Spark - ML Tuning 官方文件：https://spark.apache.org/docs/2.2.0/ml-tuning.html 這一章節主要講述如何通過使用MLlib的工具來除錯模型演算法和pipeline，內建的交叉驗證和其他工具允許使用者優化模型和pipeline中的超引數；

svm核函式的理解和選擇

特徵空間的隱式對映：核函式咱們首先給出核函式的來頭：在上文中，我們已經瞭解到了SVM處理線性可分的情況，而對於非線性的情況，SVM 的處理方法是選擇一個核函式 κ(⋅,⋅) ，通過將資料對映到高維空間，來解決在原始空間中線性不可分的問題。此外，因為訓練樣

svmtrain和svmclassify引數細說_核函式選擇

1. >>help svmtrain SVMSTRUCT = svmtrain(TRAINING, Y) trains a support vector machine (SVM)

支援向量機SVM核函式的選擇(七)

支援向量機是建立在統計學習理論基礎之上的新一代機器學習演算法，支援向量機的優勢主要體現在解決線性不可分問題，它通過引入核函式，巧妙地解決了在高維空間中的內積運算，從而很好地解決了非線性分類問題。要構造出一個具有良好效能的SVM，核函式的選擇是關鍵也是最重要的一步．通常來講

選擇支援向量機(SVM)核函式

SVM核函式通常有四種： 1. Linear 2. Polynomial 3. Gaussian (RBF) 4. Sigmoid/Logistic 不知為何，RBF最常用一般情況下，給定隨意的資料集，你不知道該用什麼樣的核函式，通常先用簡單的對映方式，然後再一步步的複雜化。如果資料集是線性可分的，用line

python 機器學習中模型評估和調參

劃分 gif osi 最終 http 都沒有 select enume 沒有在做數據處理時，需要用到不同的手法，如特征標準化，主成分分析，等等會重復用到某些參數，sklearn中提供了管道，可以一次性的解決該問題先展示先通常的做法 import pandas as

【python學習筆記】python函式定義和傳參方法說明

一、函式定義方式函式定義用關鍵字def，其引數傳遞不用設定型別，也不用定義返回，然後在函式名稱後加上:號，這點和java很不一樣，相對來說更加簡單了；另外包含關係上用四個空格來標識，而非java的;號；如下為一個範例，定義了一個函式用來生成任意上界的菲波那契數列: # -*- c

人工智慧（3）- 模型評估和調參

1.pipeline 管道利用 pipeline的概念可以從這裡抽象出來：將一件需要重複做的事情切割成各個不同的階段，每一個階段由獨立的單元負責。所有待執行的物件依次進入作業佇列。管道機智在機器學習中得以應用的根源

16 SVM - 程式碼案例三 - 不同SVM核函式效果比較

SVM的章節已經講完，具體內容請參考：《01 SVM - 大綱》《14 SVM - 程式碼案例一 - 鳶尾花資料SVM分類》《15 SVM - 程式碼案例二 - 鳶尾花資料不同分類器效果比較》常規操作： 1、標頭檔案引入SVM相關的包2、防止中文亂碼3、讀取資料4、資料分割訓練集和測試集 6:4

C的函式宣告和形參

1.函式定義前要宣告，一般都是在標頭檔案中宣告。呼叫前要宣告，否則編譯報錯。 2.被調函式返回型別為整形或者char型，系統會自理。 3.被調函式定義在主函式之前。 4.在定義所有函式之前，先對呼叫

【機器學習】SVM核函式的計算

J=∑iαi−12∑i∑jαiαjdidjk(xi)Tk(xj)=∑iαi−12∑i∑jαiαjdidjK(xi,xj)subjectto∑αidi=0,0≤αi≤C 在優化好αi拉格朗日量後，我們得

【模式識別】SVM核函式

以下是幾種常用的核函式表示：線性核（Linear Kernel）多項式核（Polynomial Kernel）徑向基核函式（Radial Basis Function）也叫高斯核（Gaussian Kernel），因為可以看成如下核函式的領一個種形式：徑向基函式是指取值僅僅依

有趣的C語言--函式宣告和形參問題

1.舊式無參宣告 ANSI C是美國國家標準協會(ANSI)對C語言釋出的標準。使用C的軟體開發者被鼓勵遵循ANSI C文件的要求，因為它鼓勵使用跨平臺的程式碼。在ANSI C規範之前，我們在宣告函式的時候只要宣告其返回型別，這樣就可能有如下問題產生：

SVM核函式的分類

1、經常使用的核函式核函式的定義並不困難，根據泛函的有關理論，只要一種函式 K( xi, xj) 滿足Mercer條件，它就對應某一變換空間的內積．對於判斷哪些函式是核函式到目前為止也取得了重要的突破，得到Mercer定理和以下常用的核函式型別：(1)線性核函式 K( x, xi) = x ⋅ xi(2)多