SVM的核函式之線性和高斯的選擇

阿新 • • 發佈：2019-01-09

關於SVM中線性核函式和高斯核函式的選擇

關於SVM中線性核函式和高斯核函式的選擇

SVM中常用核函式一般是線性核函式和高斯核函式。以sklearn中的SVC，提供的’linear’和’rbf’做說明。面向[n,m]原始資料集，一般的選取準則：

相對於n，m很大。比如m≥n, m=10000, n=10~1000,即(m/n)>10。
考慮’linear’
m很小，n一般大小。比如m=1-1000, n=10~10000,即(m/n)在[0.0001,100].
考慮’rbf’
m很小，n很大。比如n=1-1000，m=50000+，即(m/n)在[~,0.02].
增加m的量，考慮’linear’

補充：logistic約等同於’linear’的選擇

#!/usr/bin/python
# encoding: utf-8


"""
@author : jack_lu
@contact : [email protected]
@File : SVM
@time : 2018/12/12 12:12
"""

# 練習所用資料集
from sklearn.datasets import fetch_lfw_people,olivetti_faces

# 特徵提取方法
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
# 特徵轉換方法
from sklearn.preprocessing import StandardScaler

# sklearn模型方法
from sklearn.model_selection import 
 train_test_split

# metric方法
from sklearn.metrics import accuracy_score

# 機器學習模型
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC

1.基本資料準備

print('#'*50 + '  1.基本資料準備  ' + '#'*50)
lfw_people2 = fetch_lfw_people(min_faces_per_person=70, resize=0.4)  # 需要通過翻牆下載，C:\Users\Administrator\scikit_learn_data\lfw_home\joblib\sklearn\datasets\lfw\_fetch_lfw_people

##################################################  1.基本資料準備  ##################################################

n_samples, h, w = lfw_people2.images.shape
X = lfw_people2.data
y = lfw_people2.target
n_features = X.shape[1]

target_names = lfw_people2.target_names
n_class = target_names.shape[0]

print('#'*20,'資料集基本情況','#'*20)
print('**樣本數量**：%d' %(X.shape[0]))
print('**特徵維度**：%d' %(X.shape[1]))
print('**目標類別數**：%d' %(n_class))
print('#'*20,'資料集基本情況','#'*20)

#################### 資料集基本情況 ####################
**樣本數量**：1288
**特徵維度**：1850
**目標類別數**：7
#################### 資料集基本情況 ####################

X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.25,random_state=1)

print('#'*20,'訓練資料集基本情況','#'*20)
print('**訓練樣本數量**：%d' %(X_train.shape[0]))
print('**訓練特徵維度**：%d' %(X_train.shape[1]))
print('**目標類別數**：%d' %(n_class))
print('#'*20,'訓練資料集基本情況','#'*20)

#################### 訓練資料集基本情況 ####################
**訓練樣本數量**：966
**訓練特徵維度**：1850
**目標類別數**：7
#################### 訓練資料集基本情況 ####################

2.各情況對比

print('#'*50 + '  2.建模與比較  ' + '#'*50)

##################################################  2.建模與比較  ##################################################

1. SVM(kernel=‘linear’)：直接採用資料集[966,1850]

svm_origin = SVC(kernel='linear', C=1000, decision_function_shape='ovo')  # 根據官方說明，對於多分類任務宜採用'ovo'即onevsone策略
svm_origin.fit(X_train, y_train)
y_pred = svm_origin.predict(X_test)
print('**情況1-linear的準確率**: %s' %(accuracy_score(y_pred=y_pred, y_true=y_test)))

**情況1-linear的準確率**: 0.832298136646

2. SVM(kernel=‘rbf’)：直接採用資料集[966,1850]

svm_rbf = SVC(kernel='rbf', C=1000, decision_function_shape='ovo')  # 根據官方說明，對於多分類任務宜採用'ovo'即onevsone策略
svm_rbf.fit(X_train, y_train)
y_pred = svm_rbf.predict(X_test)
print('**情況2-rbf的準確率**: %s' %(accuracy_score(y_pred=y_pred, y_true=y_test)))

**情況2-rbf的準確率**: 0.44099378882

3. LR：直接採用資料集[966,1850]

lr_origin = LogisticRegression()  # 對於多分類任務，multi_class可選擇'ovr'或者'auto'自動選擇，這裡按照預設'auto'
lr_origin.fit(X_train, y_train)
y_pred = lr_origin.predict(X_test)
print('**情況3-LR的準確率**: %s' %(accuracy_score(y_pred=y_pred, y_true=y_test)))

**情況3-LR的準確率**: 0.826086956522

4. 降維之後

print('#'*20,'維度由1850減少到150之後','#'*20)

#################### 維度由1850減少到150之後 ####################

def namestr(obj, namespace):
    return [name for name in namespace if namespace[name] is obj]
print(namestr(lr_origin,globals()),'\n',
namestr(lr_origin,globals())[0])

['lr_origin', 'model'] 
 lr_origin

def small_feature_model(model,X_train=X_train,y_train=y_train,X_test=X_test, y_test=y_test):
    pca = PCA(n_components=150,random_state=0,whiten=True)
    pipeline = Pipeline([('scale',StandardScaler()),('pca',pca)])
    processing = pipeline.fit(X_train)
    X_train = processing.transform(X_train)
    X_test = processing.transform(X_test)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
#     print(namestr(model,globals()))
    print('**small-%s的準確率**: %.3f' %(namestr(model, globals())[0],accuracy_score(y_pred=y_pred, y_true=y_test)))

for model in [svm_origin, svm_rbf, lr_origin]:
    small_feature_model(model)

**small-svm_origin的準確率**: 0.789
**small-svm_rbf的準確率**: 0.811
**small-lr_origin的準確率**: 0.835

print('#'*50 + '  完成  ' + '#'*50)

##################################################  完成  ##################################################

3.小結

從結果看到：

將維度減少到150之後，選擇kernel='rbf’的效果>‘linear’;
在沒有調參情況下，LR的效果還不錯,初期建模值得先嚐試。

當然，上面是指定了特定的引數，更主要的目的是對比SVM兩種核方法在n和m的比例當中的效果。在具體問題當中，在計算力有限條件下，建議還是通過網格搜尋的方法對比選出最優的kernel。

SVM的核函式之線性和高斯的選擇

Table of Contents 關於SVM中線性核函式和高斯核函式的選擇 1.基本資料準備 2.各情況對比 1. SVM(kernel='linear')：直接採用資料集[966,1850] 2

svm核函式的理解和選擇

特徵空間的隱式對映：核函式咱們首先給出核函式的來頭：在上文中，我們已經瞭解到了SVM處理線性可分的情況，而對於非線性的情況，SVM 的處理方法是選擇一個核函式 κ(⋅,⋅) ，通過將資料對映到高維空間，來解決在原始空間中線性不可分的問題。此外，因為訓練樣

機器學習實戰-之SVM核函式與案例

在現實任務中，原始樣本空間中可能不存在這樣可以將樣本正確分為兩類的超平面，但是我們知道如果原始空間的維數是有限的，也就是說屬性數是有限的，則一定存在一個高維特徵空間能夠將樣本劃分。事實上，在做任務中，我們並不知道什麼樣的核函式是合適的。但是核函式的選擇卻

降維（PCA、核PCA、SVD、高斯隨機對映和 NMF）

以下內容來自《Python資料科學指南》降維方法比較：PCA：計算代價高昂，特徵向量得存線上性相關。核PCA: 特徵向量是非線性相關也可以。SVD：比PCA更能解釋資料，因為是直接作用於原資料集，不會像PCA一樣，將相關變數轉換為一系列不相干的變數。另外，PCA是單模因子分析

極大既然估計和高斯分布推導最小二乘、LASSO、Ridge回歸

baidu 器） ridge 連續概率重要 eal 函數應用 map 最小二乘法可以從Cost/Loss function角度去想，這是統計（機器）學習裏面一個重要概念，一般建立模型就是讓loss function最小，而最小二乘法可以認為是 loss function

【bzoj4004】【JLOI2015】裝備購買（線性基+高斯消元）

complete truct algo turn insert input 否則沒有 main Description 臉哥最近在玩一款神奇的遊戲，這個遊戲裏有 n 件裝備，每件裝備有 m 個屬性，用向量zi(aj ,.....,am) 表示 (1 <= i <

題解外星千足蟲(線性基+高斯消元)

置疑 pac 想要 %d ++ ldb printf ins n+1 題解 luogu外星千足蟲(線性基+高斯消元) 題目 luogu題目傳送門題解想法首先需要知道這是個異或方程對吧然後既然看到位運算，又有這麽多，就可以考慮線性基(做題技巧)，那我們就丟進去接下

K均值聚類（K-means）和高斯混合聚類（Mixture of Gaussian Models）

math del 一個 ans line k-均值聚類初始化 gaussian 樣本 K-means算法流程給定條件： ????example set: \((x_1, y_1), (x_2, y_2), \dots, (x_N, y_N)\) 初始化： ????K個簇

Android 使用Glide4.7.1對圖片進行圓角處理和高斯模糊

一、概述在Glide V4版本之後，對於圓角處理和高斯模糊的方法都有了一些改變，下面主要簡單介紹下處理方法二、正文在開始之前，我們先來看看效果，看看是否符合你的需要，圖1：圓角處理（四個角可以隨意組合處理）；圖2：高斯模糊處理；圖3：圓角處理和高斯模糊處理 (

sklearn的快速使用之十（高斯樸素貝葉斯 )

""" ========================================= Gaussian Naive Bayes ( 高斯樸素貝葉斯 ) ========================================= """ print(__doc__) from s

使用Atlas進行元資料管理之容錯和高可用

1. 介紹 Apache Atlas使用各種系統並與之互動，為資料管理員提供元資料管理和資料血緣資訊。通過適當地選擇和配置這些依賴關係，可以使用Atlas實現高度的服務可用性。本文件介紹了Atlas中的高可用性支援狀態，包括其功能和當前限制，以及實現此高級別可用性所需的配置。在高階架構章節(請參閱我翻譯

16 SVM - 程式碼案例三 - 不同SVM核函式效果比較

SVM的章節已經講完，具體內容請參考：《01 SVM - 大綱》《14 SVM - 程式碼案例一 - 鳶尾花資料SVM分類》《15 SVM - 程式碼案例二 - 鳶尾花資料不同分類器效果比較》常規操作： 1、標頭檔案引入SVM相關的包2、防止中文亂碼3、讀取資料4、資料分割訓練集和測試集 6:4

伯努利分佈和高斯分佈下的最大似然估計

最大似然估計：由於每一個樣本是否出現都對應著一定的概率，而且一般來說這些樣本的出現都不那麼偶然，因此我們希望這個概率分佈的引數能夠以最高的概率產生這些樣本。如果觀察到的資料為D1 , D2 , D3 ，…， DN ，那麼極大似然的目標如下：通常上面這個概率的計算並不容易。

PHP函式之array_merge()和array()+array()區別。

在PHP中可以使用array_merge函式和兩個陣列相加array+array的方式進行數組合並，但兩者效果並不相同，下面為大家介紹兩者具體的使用區別. 區別如下：當下標為數值時，array_merge()不會覆蓋掉原來的值，但array＋array合併陣列則會

[SDOI2006]線性方程組——高斯消元模板

題目大意：求解線性方程組。判斷惟一解，無窮解，無解的三種情況。高斯消元：洛谷的模板題好像怎麼打都可以過，也沒有具體區分無窮解和無解的情況，看來這個題才是高斯消元的真正模板。惟一解：這個大概是最好判斷的了，在每次消元的時候都沒有出現係數全部都為0的情況

Python+OpenCV寫椒鹽噪聲和高斯噪聲

學習OpenCV+Python第二天，老師佈置作業讓給圖片新增噪聲，我是一臉懵，通過查資料和看書，寫下如下程式碼： import cv2 import numpy as np import random import tkinter import math d

Extracting Lines Using Differential Geometry and Gaussian Smooth--Carsten Steger 使用微分幾何和高斯平滑進行邊緣提取

在csdn中編輯公式參考： http://blog.csdn.net/gateway6143/article/details/23134225 論文思路一、對直線（一維曲線的檢測） 1. 真實影象常常包含噪聲，對影象進行平滑去噪（高斯平滑）：

oracle函式之instr()和substr()實現列拆分

1、INSTR()函式在Oracle中可以使用instr()函式對某個字串進行判斷，判斷其是否含有指定的字元。在一個字串中查詢指定的字元,返回被查詢到的指定的字元的位置。語法： instr(sourceString,destStr

【機器學習】SVM核函式的計算

J=∑iαi−12∑i∑jαiαjdidjk(xi)Tk(xj)=∑iαi−12∑i∑jαiαjdidjK(xi,xj)subjectto∑αidi=0,0≤αi≤C 在優化好αi拉格朗日量後，我們得

【模式識別】SVM核函式

以下是幾種常用的核函式表示：線性核（Linear Kernel）多項式核（Polynomial Kernel）徑向基核函式（Radial Basis Function）也叫高斯核（Gaussian Kernel），因為可以看成如下核函式的領一個種形式：徑向基函式是指取值僅僅依

SVM的核函式之線性和高斯的選擇

Table of Contents

關於SVM中線性核函式和高斯核函式的選擇

1.基本資料準備

2.各情況對比

1. SVM(kernel=‘linear’)：直接採用資料集[966,1850]

2. SVM(kernel=‘rbf’)：直接採用資料集[966,1850]

3. LR：直接採用資料集[966,1850]

4. 降維之後

3.小結

相關推薦