用實驗理解SVM的核函式和引數

阿新 • • 發佈：2019-01-11

原創宣告：本文為 SIGAI 原創文章，僅供個人學習使用，未經允許，不能用於商業目的。

歡迎搜尋關注微信公眾號SIGAICN，獲取更多原創乾貨

導言

支援向量機（SVM）在很多分類問題上曾經取得了當時最好的效能，使用非線性核的支援向量機可以處理線性不可分的問題。僅僅通過一個簡單的核函式對映，就能達到如此好的效果，這讓我們覺得有些不可思議。核函式過於抽象，在本文中，SIGAI將通過一組實驗來演示核函式的有效性，並解釋支援向量機各個引數所起到的作用，讓大家對此有一個直觀的認識。如果要了解SVM的理論，請閱讀我們之前的公眾號文章。

核對映與核函式

通過核函式，支援向量機可以將特徵向量對映到更高維的空間中，使得原本線性不可分的資料在對映之後的空間中變得線性可分。假設原始向量為

x，對映之後的向量為z，這個對映為：

在實現時不需要直接對特徵向量做這個對映，而是用核函式對兩個特徵向量的內積進行變換，這樣做等價於先對向量進行對映然後再做內積：

在這裡K為核函式。常用的非線性核函式有多項式核，高斯核（也叫徑向基函式核，RBF）。下表列出了各種核函式的計算公式：

各種核函式與它們的計算公式

核函式	計算公式
線性核
多項式核
徑向基函式核/高斯核
sigmoid核

其中，b，d為人工設定的引數，d是一個正整數，為正實數，b為非負實數。

使用核函式後，支援向量機在訓練時求解的對偶問題為：

其中sgn為符號函式，定義為：

實驗

支援向量機真的能對非線性的資料進行分類嗎？不同的訓練引數會對分類結果產生什麼樣的影響？下面我們用一個小實驗來驗證。在這裡，我們對二維平面上

512x512畫素的影象中的所有點進行分類，有藍色和紅色兩類。先用一批樣本訓練一個模型，然後對平面內所有的點進行分類，分類結果的顏色和訓練樣本的顏色相同。

首先來看支援向量機能否處理異或問題，這是人工智慧裡一個很經典的分類問題，兩類訓練樣本分別落在兩個對角線上：

顯然，用一條直線無論怎樣劃分都無法將這兩類樣本正確的分開。下面來看SVM的表現，我們使用線性核，多項式核，高斯核三種核函式進行訓練。

首先選用線性核，結果是這樣的：

所有樣本都被判定成紅色。不出所料，使用線性核的SVM是無法解決異或問題的。

接下來選用多項式核。首先將引數設定為：

分類效果非常差：

藍色的樣本只有少數被分對了。下面調整訓練引數：

這裡只加大了懲罰因子

C的子，分類效果如下：

這比之前好了，藍色的樣本有一半被分對。接著調整引數：

分類效果如下：

現在是見證奇蹟的時刻！所有訓練樣本都被正確分類，看來加大C的值非常有效。

下面來看高斯核的表現，如果引數設定為：

分類效果也是非常差：

所有的點都被分成了紅色。下面加大懲罰因子的值：

大部分訓練樣本都可以正確分類：

進一步加大C的值：

效果比剛才更好，所有樣本基本上都被正確分類了。

繼續調整，加大C的值：

所有樣本都被正確分類。

如果我們只加大的值，也能達到很好的效果：

所有樣本同樣被正確分類。

結論

通過上面的實驗我們發現使用多項式核、高斯核的SVM確實是可以解決線性不可分問題的。不同的引數對精度的影響非常大，一般來說，C越大，訓練得到的模型越準確。如果採用高斯核，引數的值對精度影響也非常大。因此，在實際應用時調一組好的引數對使用效果非常重要！

推薦文章

[1] 機器學習-波瀾壯闊40年 SIGAI 2018.4.13.

[3] 人臉識別演算法演化史 SIGAI 2018.4.20.

[6] 用一張圖理解SVM的脈絡SIGAI 2018.4.28.

[7] 人臉檢測演算法綜述 SIGAI 2018.5.3.

[8] 理解神經網路的啟用函式 SIGAI 2018.5.5.

[10] 理解梯度下降法 SIGAI 2018.5.11.

[12] 理解凸優化SIGAI 2018.5.18.

原創宣告

本文為 SIGAI 原創文章，僅供個人學習使用，未經允許，不能用於商業目的。

用實驗理解SVM的核函式和引數

原創宣告：本文為 SIGAI 原創文章，僅供個人學習使用，未經允許，不能用於商業目的。歡迎搜尋關注微信公眾號SIGAICN，獲取更多原創乾貨導言支援向量機（SVM）在很多分類問題上曾經取得了當時最好的效能，使用非線性核的支援向量機可以處理線性不可分的問題。僅僅通過一個簡單的核

svm核函式的理解和選擇

特徵空間的隱式對映：核函式咱們首先給出核函式的來頭：在上文中，我們已經瞭解到了SVM處理線性可分的情況，而對於非線性的情況，SVM 的處理方法是選擇一個核函式 κ(⋅,⋅) ，通過將資料對映到高維空間，來解決在原始空間中線性不可分的問題。此外，因為訓練樣

20 字元裝置驅動相關的函式和引數及實現（虛擬檔案）

字元裝置驅動相關的函式和引數及實現（虛擬檔案）使用者程序呼叫函式順序： open ---> kernel ---> cdev.ops->open(..) read ---> kernel ---> cdev.ops->read(

16 SVM - 程式碼案例三 - 不同SVM核函式效果比較

SVM的章節已經講完，具體內容請參考：《01 SVM - 大綱》《14 SVM - 程式碼案例一 - 鳶尾花資料SVM分類》《15 SVM - 程式碼案例二 - 鳶尾花資料不同分類器效果比較》常規操作： 1、標頭檔案引入SVM相關的包2、防止中文亂碼3、讀取資料4、資料分割訓練集和測試集 6:4

CUDA 核函式執行引數

CUDA核函式執行引數呼叫定義的和函式時採用類似於下面的形式： kernel<<<1,1>>>(param1,param2,...) “<<< >>>”中引數的作用是告訴我們該如何啟動核函式(比如如何設定執行緒)。

用tensorflow實現svm的線性和非線性分類

線性分割：# coding: utf-8 # In[1]: import matplotlib.pyplot as plt import numpy as np from sklearn import datasets import tensorflow as tf

【機器學習】SVM核函式的計算

J=∑iαi−12∑i∑jαiαjdidjk(xi)Tk(xj)=∑iαi−12∑i∑jαiαjdidjK(xi,xj)subjectto∑αidi=0,0≤αi≤C 在優化好αi拉格朗日量後，我們得

【模式識別】SVM核函式

以下是幾種常用的核函式表示：線性核（Linear Kernel）多項式核（Polynomial Kernel）徑向基核函式（Radial Basis Function）也叫高斯核（Gaussian Kernel），因為可以看成如下核函式的領一個種形式：徑向基函式是指取值僅僅依

day5 函式和引數

函式就是最基本的一種程式碼抽象的方式定義一個函式使用def語句 def my_abs(x):　　if x >= 0:　　　　return x　　else:　　　　return -x 定義一個什麼事也不做的空函式(可以用來作為佔位符) def nop(): 　　pass 資料型別檢查可以用內

SVM核函式的分類

1、經常使用的核函式核函式的定義並不困難，根據泛函的有關理論，只要一種函式 K( xi, xj) 滿足Mercer條件，它就對應某一變換空間的內積．對於判斷哪些函式是核函式到目前為止也取得了重要的突破，得到Mercer定理和以下常用的核函式型別：(1)線性核函式 K( x, xi) = x ⋅ xi(2)多

支援向量機SVM核函式的選擇(七)

支援向量機是建立在統計學習理論基礎之上的新一代機器學習演算法，支援向量機的優勢主要體現在解決線性不可分問題，它通過引入核函式，巧妙地解決了在高維空間中的內積運算，從而很好地解決了非線性分類問題。要構造出一個具有良好效能的SVM，核函式的選擇是關鍵也是最重要的一步．通常來講

理解Python 返回函式和裝飾器

函式也是物件返回函式裝飾器理解裝飾器 * args是一個數組，代表所有引數，** kwargs是一個字典，代表所有有預設值的關鍵字引數。比如： def foo(name, age=None, height=None): print("I

選擇支援向量機(SVM)核函式

SVM核函式通常有四種： 1. Linear 2. Polynomial 3. Gaussian (RBF) 4. Sigmoid/Logistic 不知為何，RBF最常用一般情況下，給定隨意的資料集，你不知道該用什麼樣的核函式，通常先用簡單的對映方式，然後再一步步的複雜化。如果資料集是線性可分的，用line

機器學習：核函式和核矩陣簡介

核函式也就是一種函式，本質上跟其他常見的函式（如冪函式）是一樣的。我們知道，冪函式有它的特點，形如的函式才能稱為冪函式。同樣，核函式也有他的特點，只不過它的特點更復雜一點，滿足以下要求的函式才能稱為核函式（定理）：令為輸入空間，是定義在上的對稱函式，則是核函式當且僅當對於

手機端長按刪除前後端（settimeout代入函式和引數的方法）

html：結構可以是 {loop $lists $k $v} <a href="?mid={$mid}&action=show&itemid={$v[itemid]}" class="rfq-item touchArea">

支援向量機SVM核函式分析

核函式描述和分析考慮在”迴歸和梯度下降“中“線性迴歸”中提出的問題，特徵是房子的面積x，這裡的x是實數，結果y是房子的價格。假設我們從樣本點的分佈中看到x和y符合3次曲線，那麼我們希望使用x的三次多項式來逼近這些樣本點。那麼首先需要將特徵x擴充套件到三維，然後尋找特徵和結果之

機器學習實戰-之SVM核函式與案例

在現實任務中，原始樣本空間中可能不存在這樣可以將樣本正確分為兩類的超平面，但是我們知道如果原始空間的維數是有限的，也就是說屬性數是有限的，則一定存在一個高維特徵空間能夠將樣本劃分。事實上，在做任務中，我們並不知道什麼樣的核函式是合適的。但是核函式的選擇卻

常用SVM核函式

以下是幾種常用的核函式表示：線性核（Linear Kernel）多項式核（Polynomial Kernel）徑向基核函式（Radial Basis Function）也叫高斯核（Gaussian Kernel），因為可以看成如下核函式的領一個種形式：徑向基函式是指取值僅僅依

Kernel SVM (核函式支援向量機)

1. SVM 目標函式及約束條件 SVM 的介紹及數學推導參考：我的CSDN，此處直接跳過，直接給出 SVM 的目標函式和約束條件： minw,b12wTws.t.yn(wTxn+b)≥1,n=1,..N 2. 對偶形式 SVM 目標函式對偶形

python介面自動化（三十四）-封裝與呼叫--函式和引數化（詳解）

簡介　　前面雖然實現了引數的關聯，但是那種只是記流水賬的完成功能，不便於維護，也沒什麼可讀性，隨著水平和技能的提升，再返回頭去看前邊寫的程式碼，簡直是慘不忍睹那樣的程式碼是初級入門的程式碼水平都達不到。接下來這篇由我帶領小夥伴們把每一個滑鼠點選動作寫成一個函式，這樣更方便維護了，而且可讀性也高，後期其