R語言中的SVM

阿新 • • 發佈：2019-02-14

轉載自：http://www.klshu.com/1667.html

通過本文，你將瞭解到如下的內容：
1、如何在R語言中通過kernlab包來使用SVM
2、觀察C引數和和核函式的變化的影響
3、使用SVM分類來測試一個基因實驗資料的癌症診斷

一、線性SVM

在這裡我們生成了二維的玩具資料，並且學習如何訓練和測試SVM

1.1 生成玩具資料

首先從2高斯（2 Gaussians）產生正樣本和負樣本的樣例資料。

n <- 150 # number of data points
p <- 2 # dimension

sigma <- 1 # variance of the distribution
meanpos <- 0 # centre of the distribution of positive examples
meanneg <- 3 # center of the distribution of negative examples
npos <- round(n/2) # number of positive examples
nneg <- n-npos # number of negative examples

#Generate the positive and negative examples
xpos <- matrix(rnorm(npos*p,mean=meanpos,sd=sigma),npos,p)
xneg <- matrix(rnorm(nneg*p,mean=meanneg,sd=sigma),npos,p)
x <- rbind(xpos,xneg)

#Generatethelabels
y<-matrix(c(rep(1,npos),rep(-1,nneg)))

#Visualize the data
plot(x,col=ifelse(y>0,1,2))
legend("topleft",c('Positive','Negative'),col=seq(2),pch=1,text.col=seq(2))

下面將資料劃分為80%的訓練集和20%的測試集

##Prepare a training and a test set##
ntrain <- round(n*0.8) # number of training examples
tindex <- sample(n,ntrain) # indices of training samples
xtrain<-x[tindex,]
xtest<-x[-tindex,]
ytrain<-y[tindex]
ytest<-y[-tindex]
istrain=rep(0,n)
istrain[tindex]=1

#Visualize
plot(x,col=ifelse(y>0,1,2),pch=ifelse(istrain==1,1,2))
legend("topleft",c('PositiveTrain','PositiveTest','NegativeTrain','NegativeTest'), col=c(1,1,2,2),pch=c(1,2,1,2),text.col=c(1,1,2,2))

1.2 訓練SVM

現在我們在訓練集上使用引數C=0.08來訓練線性SVM

#load the kernlab package
library(kernlab)

#traintheSVM
svp<-ksvm(xtrain,ytrain,type="C-svc",kernel='vanilladot',C=100,scaled=c())

下面來了解和看看svp包含了什麼

#Generalsummary
svp

#Attributes that you can access
attributes(svp)

#For example,the support vectors
alpha(svp)
alphaindex(svp)
b(svp)

#Use the built-in function to pretty-plot the classifier
plot(svp,data=xtrain)

1.3 使用SVM預測

現在我們可以使用訓練過的SVM來預測測試集中的點的型別。然後我們來使用指標變數來分析結果。

#Predict labels on test
ypred = predict(svp,xtest)
table(ytest,ypred)

#Compute accuracy
sum(ypred==ytest)/length(ytest)

#Compute at the prediction scores
ypredscore=predict(svp,xtest,type="decision”)

#Check that the predicted labels are the signs of the scores
table(ypredscore>0,ypred)

#Package to compute ROC curve,precision-recall etc...
library(ROCR)

pred<-prediction(ypredscore,ytest)

#Plot ROC curve
perf<-performance(pred,measure="tpr",x.measure="fpr")
plot(perf)

#Plot precision/recall curve
perf<-performance(pred,measure="prec",x.measure="rec")
plot(perf)

#Plot accuracy as function of threshold
perf<-performance(pred,measure="acc")
plot(perf)

1.4 交叉驗證（Cross-validation）

cv.folds <- function(n,folds=3)
 ##randomly split the n samples into folds
 {
 split(sample(n),rep(1:folds,length=length(y)))
 }
svp<-ksvm(x,y,type="C-svc",kernel=’vanilladot’,C=1,scaled=c(),cross=5)
print(cross(svp))
#[1] -1

1.5 引數C的影響

C平衡了大量的邊際和沒法識別的點
如何選擇好它是非常重要的。

二、非線性SVM

有時候線性的SVM是不夠的，比如產生的玩具的資料的正樣本和負樣本是混合在一起的，沒法使用線性分類。
比如下圖使用線性SVM是沒法分類的。

為了解決這個問題，我們使用非線性SVM。我們改變了kernerl引數，如使用高斯RBF的核函式，並且σ=1，C=1

#Train a nonlinear SVM
svp<-ksvm(x,y,type="C-svc",kernel=’rbf’,kpar=list(sigma=1),C=1)

#Visualizeit
plot(svp,data=x)

R語言中的SVM

轉載自：http://www.klshu.com/1667.html 通過本文，你將瞭解到如下的內容： 1、如何在R語言中通過kernlab包來使用SVM 2、觀察C引數和和核函式的變化的影響 3、使用SVM分類來測試一個基因實驗資料的癌症診斷一、線性SVM

全面了解R語言中的k-means如何聚類？

聚類下面將在iris數據集上演示k-means聚類的過程。先從iris數據集中移除Species屬性，然後再對數據集iris調用函數kmeans，並將聚類結果存儲在變kmeans.result中。在下面的代碼中，簇的數目設置為3。iris2 <- irisiris2$Species <- NULL

rugarch包與R語言中的garch族模型

-m c函數 hcl null station fpm IT dual list 來源：http://www.dataguru.cn/article-794-1.html rugarch包是R中用來擬合和檢驗garch模型的一個包。該包最早在http://rgarch.r

R語言中tidyverse基礎知識彙總

tidyverse group_by 分組統計 gather()和spread() 簡單地說，gather()是列轉行，而spread()是行轉列。請看下面的示例： > df id class grade 1 1 a 81 2 2 b 82 3 3

R語言中的as.Date

剛剛在處理從ACCESS返回的資料時，無意中發現所有資料的日期比實際少了一天，認真檢查原資料以後，沒有發現丟失，於是推斷可能是由於時區的轉換問題，查看了幫助，系統預設是UTC時區，而資料中的日期字元為CTS，如"2018-02-13 CST"，的轉換過程中加入引數as.Dat

R 語言中，資料框依據不同列進行排序

在R中處理資料框型別的資料時候，經常會遇到根據資料框中某一列來對整個資料框進行排序的情況。同時，當主列排序完成之後，會有相同級別的多行資料存在，這時可能就需要依照另外一列進行次級排序。下面的程式碼通

R語言中的scale函式及標準化和歸一化的理解

在不同組資料間存在差異時，經常要進行標準化或者歸一化處理，標準化，歸一化及scale的具體理解見https://blog.csdn.net/tanzuozhev/article/details/50602051，待我日後

R語言中的vector(向量)，array(陣列)總結

對於那些有一點程式設計經驗的人來說，vector，matrix，array，list，data.frame就相當於程式語言中的容器，因為只是將R看做資料處理工具所以它們的底層是靠什麼實現的，記憶體怎麼處理的具體也不要深究。 R語言很奇怪的是它是面向物件的語言，所以經常會呼叫

使用R語言中的tidyverse進行分組處理

使用tidyverse包可以方便地進行分組處理。 > data name id grade 1 a 1 60 2 a 2 NA 3 b 3 60

R語言中Legend 函式的引數詳解

legend(x, y = NULL, legend, fill = NULL, col = par("col"), border = "black", lty, lwd, pch,

R語言中的data.frame資料索引

在R語言中，data.frame是由類似於關係資料表中的一行一行資料構成，在做資料錄入過程中，難免有許多資料是缺失的，比如說用read.csv錄入部分資料時，如果缺失會用NA來代替，那麼我希望我檢索資料的時候使用非NA的資料，怎麼處理呢？比如說data1是data.fr

R語言中plot()函式裡的6種邊框

R語言中，設定plot(x,y,'..., bty="o",..)裡引數bty，就可以不同的6種邊框了。 bty可以取6種字元，分別為“o”、“l”、“7”、“c”、“u”、“]”。這些字元代表6種邊框。 bty=“o” 繪製圖形的上邊框、下

關於R語言中set.seed()

在r中取sample時候，經常會有set.seed(某數)，經常看見取值很大，其實這裡無論括號裡取值是多少，想要上下兩次取值一樣，都需要在每次取值前輸入同樣的set.seed(某數)，才能保證兩次取值相同。 set.seed(1) x<-rnorm(5) set.se

在R語言中，使用“=”和“

R裡通常用符號”<-”代替其它語言裡的”=”來作賦值符號。因為前者敲起來比等號要麻煩，且大部分情況下兩者是等價的，所以通常就愉懶依舊用”=”來賦值。但要切記兩者在某些時候是有區別的。字面上的解釋，可以認為”<-”是賦值，”=”是傳值。在函式呼叫中，func

理解R語言中的factor

轉載和整理自，向作者表示感謝在R語言中，因子（factor）表示的是一個編號或者一個等級，即，一個點。例如，人的個數可以是1，2，3，4……那麼因子就包括，1，2，3，4…..還有描述協變數水平時，會用到高、中、低，也是因子，因為這些都是一個點。與之區別

R語言中的cor和cov

大學時候的知識忘的還真差不多了。。。 R語言： cor函式計算的是列與列間的相關係數，得到的舉證C(i,j)是第i列與第j列相關係數。相關係數的計算公式參考： http://baike.baidu.c

R語言中apply函式家族

apply 簡單說明：對陣列或者矩陣的一個維度使用函式生成值得到列表或者陣列、向量。語法規則: apply(X, MARGIN, FUN, ...) 簡單釋義： X:陣列，包括矩陣 MARGIN:1表示矩陣行，2表示矩陣列，也可以是c(1,2) FU

R語言中的attach()和detach()函式

attach() 和detach()用$ 符號訪問物件不是非常的方便，如accountants$statef。一個非常有用的工具將會使列表或者資料框的分量可以通過它們的名字直接呼叫。而且這種呼叫是暫時性的，沒有必要每次都顯式的引用列表名字。函式attach() 除了可以用

R語言中paste函式的引數sep和collapse詳解

R語言用於拼接字串的函式主要有兩個： paste (..., sep = " ", collapse = NULL) paste0(..., collapse = NULL) 其中paste0函式式paste函式的縮減版本，少了一個引數sep。引數中的.

C語言中switch...case語句中break的重要性

不能實現比例重要性 case語句毫無 ... 應該 switch 在C語言中switch...case語句是經常用到的，下面我介紹一下在使用該語句時候需要註意的一個細節問題。話不多說，直接舉例子：例子1： switch(fruit) { case 1:printf

R語言中的SVM

一、線性SVM

1.1 生成玩具資料

1.2 訓練SVM

1.3 使用SVM預測

1.4 交叉驗證（Cross-validation）

1.5 引數C的影響

二、非線性SVM

相關推薦