【機器學習與R語言】9- 支援向量機

阿新 • • 發佈：2020-09-09

1.理解支援向量機（SVM）
2. 支援向量機應用示例

1.理解支援向量機（SVM）

1）SVM特點

支援向量機和神經網路都是“黑箱模型”的代表：潛在的模型基於複雜的數學系統，而且結果難以解釋。
SVM的目標是建立一個平面邊界（“超平面”），使得任何一邊的資料劃分都是均勻的。結合了kNN和線性迴歸。
幾乎適用於所有的學習任務，包括分類和數值預測。

2）用超平面分類

線性可分：可以由一條直線或一個平面進行劃分

最大間隔超平面（MMH）：很多線都能對資料點進行分類，但要尋找能使類形成最大間隔的那條線（因為在邊界附近點位置的微小變化可能導致某些點落線上之外），支援向量就是每個類中最接近最大間隔超平面的點。所以單獨使用支援向量，就能定義最大間隔超平面。

線性可分條件下，最大間隔超平面要儘可能遠離兩組資料點的外邊界（“凸包”），最大間隔超平面就是兩個凸包之間的最短距離直線的垂直平分線，可通過“二次優化”演算法實現。

非線性可分：資料不是線性可分的條件下，使用一個“鬆弛變數”來建立一個軟間隔，允許一些點落線上不正確的一邊。

非線性可分中的成本引數C：即所有違反約束的點，試圖使總成本最小，而非尋找最大間隔。修改C將調整對於落在超平面錯誤一邊的案例的懲罰。C越大，實現100%分離的優化就越困難。較小的C將把重點放在更寬的整體邊緣。

3）對非線性空間使用核函式

另一種處理非線性問題的方法，就是使用“核技巧”的處理將問題對映到一個更高維的空間，這樣非線性關係可能會變為完全線性。

從本質上講，核技巧涉及一個新增能夠表述度量特徵之間數學關係新特徵的過程。
非線性核SVM的特點：

核函式：線性核函式（特徵的點積），多項式核函式（加一個非線性資料變換），S形核函式（類似神經網路的S形啟用函式），高斯RBF核函式（類似RBF神經網路）。多數情況下，核函式的選擇是任意的，因為效能可能只有輕微的變化。

2. 支援向量機應用示例

使用SVM進行光學字元識別（OCR影象處理）：通過將印刷或手寫文字轉換為電子形式，儲存在資料庫種來處理紙質檔案。

難點：

影象的規則模式很難嚴格定義
影象資料往往是噪聲資料

1）收集資料

資料集包含26個大寫英文字母的2000個案例，使用20種不同的隨機重塑和扭曲的黑斯和白色字型印刷。
假設當影象字元被掃描到計算機，轉換為畫素，有16個統計屬性（如水平垂直尺寸，黑色畫素比例等）。

資料下載：

連結: https://pan.baidu.com/s/1q8zHWkMZcapwnX90PA4hOg 提取碼: eaqt

2）探索和準備資料

SVM需要所有特徵都是數值型的，而且每一個特徵需要縮小到一個相當小的區間內。所以不要有因子，而且要做標準化。這裡略過沒做。

## Example: Optical Character Recognition ----

## Step 2: Exploring and preparing the data ----
# read in data and examine structure
letters <- read.csv("letterdata.csv")
str(letters)

# divide into training and test data
letters_train <- letters[1:16000, ] #80%
letters_test  <- letters[16001:20000, ] #20%

3）訓練資料

SVM的R包有e1071，klaR和kernlab等，這裡用kernlab（與caret連用，允許SVM使用各種自動化方法進行訓練和評估）。

kernlab::ksvm(target~predictors, 
                 data=mydata, 
                 kernel="rbfdot", #隱非線性對映，rbfdot/polydot/tanhdot/vanilladot
                 c=1) #違法約束條件的懲罰，較大的c值導致較窄的邊界

訓練：

## Step 3: Training a model on the data ----
# begin by training a simple linear SVM
library(kernlab)
letter_classifier <- ksvm(letter ~ ., data = letters_train,
                          kernel = "vanilladot")  #預設使用高斯RBF核函式，這裡用線性函式

# look at basic information about the model
letter_classifier

4）評估模型

letter_predictions <- predict(letter_classifier, letters_test)

head(letter_predictions)

table(letter_predictions, letters_test$letter)

# look only at agreement vs. non-agreement
# construct a vector of TRUE/FALSE indicating correct/incorrect predictions
agreement <- letter_predictions == letters_test$letter
table(agreement)
prop.table(table(agreement))

識別的準確度大概為84%。

5）提高效能

可以使用一個更復雜的核函式，將資料對映到更高維的空間，獲得一個較好的模型擬合度。如試試高斯RF核函式，或者修改成本約束引數C值來修正決策邊界的寬度。

## Step 5: Improving model performance ----
set.seed(12345)
letter_classifier_rbf <- ksvm(letter ~ ., data = letters_train, kernel = "rbfdot") #高斯RBF核函式
letter_predictions_rbf <- predict(letter_classifier_rbf, letters_test)

agreement_rbf <- letter_predictions_rbf == letters_test$letter
table(agreement_rbf)
prop.table(table(agreement_rbf))

訓練時間更長，將準確度提高到了93%。

【機器學習與R語言】9- 支援向量機

目錄1.理解支援向量機（SVM）1）SVM特點2）用超平面分類3）對非線性空間使用核函式2. 支援向量機應用示例1）收集資料2）探索和準備資料3）訓練資料4）評估模型5）提高效能

【機器學習與R語言】1-機器學習簡介

目錄1.基本概念2.選擇機器學習演算法3.使用R進行機器學習 1.基本概念機器學習：發明演算法將資料轉化為智慧行為

【機器學習與R語言】5-規則學習演算法

目錄1.分類規則原理1.1 1R單規則演算法1.2 RIPPER演算法2. 規則學習應用示例1）收集資料2）探索和準備資料3）訓練資料4）評估效能5）提高效能6）選擇決策樹中的分類規則

【機器學習與R語言】10- 關聯規則

目錄1.理解關聯規則1）基本認識2）Apriori演算法2.關聯規則應用示例1）收集資料2）探索和準備資料3）訓練模型4）評估效能5）提高模型效能

【機器學習與R語言】11- Kmeans聚類

目錄1.理解Kmeans聚類1）基本概念2）kmeans運作的基本原理2.Kmeans聚類應用示例1）收集資料2）探索和準備資料3）訓練模型4）評估效能5）提高模型效能

【機器學習與R語言】13- 如何提高模型的效能？

目錄1.調整模型引數來提高效能1.1 建立簡單的調整模型2.2 定製調整引數2.使用元學習來提高效能2.1 整合學習（元學習）概述2.2 bagging2.3 boosting2.4 隨機森林1）訓練隨機森林2）評估隨機森林效能

【機器學習 Azure Machine Learning】Azure Machine Learning 訪問SQL Server 無法寫入問題 (使用微軟Python AML Core SDK）

問題情形使用Python SDK在連線到資料庫後，連線資料庫獲取資料成功，但是在Pandas中用 to_sql 反寫會資料庫時候報錯。錯誤資訊為：ProgrammingError: (\'42000\', \"[42000] [Microsoft][SQL Server Native Client

【機器學習 Azure Machine Learning】使用Aure虛擬機器搭建Jupyter notebook環境，為Machine Learning做準備(Ubuntu 18.04，Linux)

問題描述在Azure的VM中已經安裝好Jupyter，並且通過jupyter notebook --port 9999 已經啟動，但是通過本機瀏覽器，訪問VM的公網IP，則始終是不能訪問的錯誤。(This site can’t be reached)

【機器學習 Azure Machine Learning】使用VS Code登入到Linux VM上 (Remote-SSH)

問題描述在平常的工作習慣中，如果使用VS Code做指令碼的開發，是一個非常好用的工具，現在也可以通過VS Code的不同方式來連線到Linux VM中(ssh), 第一種是VS Code的Terminal中通過powershell視窗使用ssh命令登入。

深度學習與R語言

對於R語言使用者來說，深度學習還沒有生產級的解決方案(除了MXNET)。這篇文章介紹了R語言的Keras介面，以及如何使用它來執行影象分類。文章結尾會通過提供一些程式碼片段顯示Keras的直觀和強大

機器學習—迴歸與分類4-4（支援向量機演算法）

使用支援向量機預測黑色星期五花銷主要步驟流程：資料集連結：https://www.cnblogs.com/ojbtospark/p/16005660.html

【機器學習的Tricks】隨機權值平均優化器swa與pseudo-label偽標籤

文章來自公眾號【機器學習煉丹術】 1 stochastic weight averaging（swa）隨機權值平均

【機器學習】隨機森林原理與調參小結

之前在整合原理小結中總結了Bagging的原理。理解了bagging演算法，隨機森林(Random Forest,以下簡稱RF)就好理解了。它是Bagging演算法的進化版，也就是說，它的思想仍然是bagging,但是進行了獨有的改進。

【機器學習】：Xgboost和GBDT的不同與比較

【與傳統GBDT相比，XGBoost有何不同】基函式不同。GBDT只用CART樹，XGBoost除了CART，也支援線性函式。

【機器學習】機器學習程式語言之爭狼煙再起，Python稱霸？

隨著科技的發展，擁有高容量、高速度和多樣性的大資料已經成為當今時代的主題詞。資料科學領域中所採用的機器學習程式語言大相徑庭。究竟哪種語言最適合機器學習成為爭論不休的話題。近日，密西根州立大學的博士生Se

【機器學習】決策樹-01

心得體會： #3-1構造決策樹 #計算夏農熵 from math import log def calcShannonEnt(dataSet): numEntries=len(dataSet)

【機器學習實戰】第六章－－支援向量機

1 import numpy as np 2 import os 3 4 5 class optStruct: 6# 建立一個數據結構來儲存所有重要的值，僅包含__init__方法，該方法可以實現其成員變數的填充

【機器學習】數值分析（1）—— 任意方程求根

任意方程求根簡介方程和函式是代數數學中最為重要的內容之一，從初中直到大學，我們都在研究著方程與函式，甚至我們將圖形代數化，從而發展出了代數幾何、解析幾何的內容。而在方程與函式中，我們研究其性質最多的

【機器學習】#4-6

多變數線性迴歸(Linear Regression with Multiple Variables) 4.1多維特徵多維特徵就是有多個特徵，比如房價模型中增加房子的樓層數等等，模型的特徵為\\(\\left( {x_{1}},{x_{2}},...,{x_{n}} \\right)\\)

【機器學習】Word2Vec

什麼是Word2Vec 將單詞轉換成向量，語義上相似的單詞在一個多維空間距離很近

【機器學習與R語言】9- 支援向量機

1.理解支援向量機（SVM）

1）SVM特點

2）用超平面分類

3）對非線性空間使用核函式

2. 支援向量機應用示例

1）收集資料

2）探索和準備資料

3）訓練資料

4）評估模型

5）提高效能

相關推薦