機器學習之SVM調參例項
一、任務
這次我們將瞭解在機器學習中支援向量機的使用方法以及一些引數的調整。支援向量機的基本原理就是將低維不可分問題轉換為高維可分問題,在前面的部落格具體介紹過了,這裡就不再介紹了。
首先匯入相關標準庫:
%matplotlib inline import numpy as np import matplotlib.pyplot as plt from scipy import stats import seaborn as sns;sns.set() # 使用seaborn的預設設定
作為一個例子,首先我們隨機生成一些資料,考慮分類任務的簡單情況,其中兩個類別的點是良好分隔的:
# 隨機來點資料 make_blobs為聚類產生資料集 from sklearn.datasets.samples_generator import make_blobs # center:產生資料的中心點,預設值3 X, y = make_blobs(n_samples=50, centers=2, random_state=0, cluster_std=0.60) plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
畫出的散點圖為當前資料的分佈情況
我們將嘗試繪製分離兩組資料的直線,從而建立分類模型。對於這裡所示的二維資料,這是我們可以手動完成的任務。 但是立刻我們看到一個問題:有兩個以上的可能的分界線可以完美地區分兩個類!
xfit = np.linspace(-1, 3.5) plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') plt.plot([0.6], [2.1], 'x', color='red', markeredgewidth=2, markersize=10) for m, b in [(1, 0.65), (0.5, 1.6), (-0.2, 2.9)]: plt.plot(xfit, m * xfit + b, '-k') plt.xlim(-1, 3.5)
這些是三個不同的分隔直線,然而,這些分隔直線能夠完全區分這些樣例。 顯然,我們簡單的直覺,“在分類之間劃線”是不夠的,我們需要進一步思考,根據支援向量機的思想,這樣劃分的效果不太理想。
支援向量機提供了一種改進方法。 直覺是這樣的:我們並非在分類之間,簡單繪製一個零寬度的直線,而是畫出邊距為一定寬度的直線,直到最近的點。 這是一個例子:
xfit = np.linspace(-1, 3.5) plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') for m, b, d in [(1, 0.65, 0.33), (0.5, 1.6, 0.55), (-0.2, 2.9, 0.2)]: yfit = m * xfit + b plt.plot(xfit, yfit, '-k') plt.fill_between(xfit, yfit - d, yfit + d, edgecolor='none', color='#AAAAAA', alpha=0.4) # alpha透明度 plt.xlim(-1, 3.5);
如圖所示
在支援向量機中,邊距最大化的直線是我們將選擇的最優模型。 支援向量機是這種最大邊距估計器的一個例子。
二、訓練一個基本的SVM
我們來看看這個資料的實際結果:我們將使用 sklearn 的支援向量分類器,對這些資料訓練 SVM 模型。 目前,我們將使用一個線性核並將C
引數設定為一個預設的數值。
from sklearn.svm import SVC # Support Vector Classifier model = SVC(kernel='linear') # 線性核函式 model.fit(X, y)
得到的SVM模型為
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, decision_function_shape='ovr', degree=3, gamma='auto_deprecated', kernel='linear', max_iter=-1, probability=False, random_state=None, shrinking=True, tol=0.001, verbose=False)
為了更好展現這裡發生的事情,讓我們建立一個輔助函式,為我們繪製 SVM 的決策邊界。
#繪圖函式 def plot_svc_decision_function(model, ax=None, plot_support=True): """Plot the decision function for a 2D SVC""" if ax is None: ax = plt.gca() # get子圖 xlim = ax.get_xlim() ylim = ax.get_ylim() # create grid to evaluate model x = np.linspace(xlim[0], xlim[1], 30) y = np.linspace(ylim[0], ylim[1], 30) Y, X = np.meshgrid(y, x) # 生成網格點和座標矩陣 xy = np.vstack([X.ravel(), Y.ravel()]).T # 堆疊陣列 P = model.decision_function(xy).reshape(X.shape) # plot decision boundary and margins ax.contour(X, Y, P, colors='k', levels=[-1, 0, 1], alpha=0.5, linestyles=['--', '-', '--']) # 生成等高線 - - # plot support vectors if plot_support: ax.scatter(model.support_vectors_[:, 0], model.support_vectors_[:, 1], s=300, linewidth=1, facecolors='none'); ax.set_xlim(xlim) ax.set_ylim(ylim)
繪出決策邊界
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') plot_svc_decision_function(model);
如圖所示:
這是最大化兩組點之間的間距的分界線,那中間這條線就是我們最終的決策邊界了。 請注意,一些訓練點碰到了邊緣, 這些點是這種擬合的關鍵要素,被稱為支援向量。 在 Scikit-Learn 中,這些點儲存在分類器的support_vectors_
屬性中:
model.support_vectors_
得到的支援向量的結果
array([[0.44359863, 3.11530945], [2.33812285, 3.43116792], [2.06156753, 1.96918596]])
在支援向量機只有位於支援向量上面的點才會對決策邊界有影響,也就是說不管有多少的點是非支援向量,那對最終的決策邊界都不會產生任何影響。我們可以看到這一點,例如,如果我們繪製該資料集的前 60 個點和前120個點獲得的模型:
def plot_svm(N=10, ax=None): X, y = make_blobs(n_samples=200, centers=2, random_state=0, cluster_std=0.60) X = X[:N] y = y[:N] model = SVC(kernel='linear', C=1E10) model.fit(X, y) ax = ax or plt.gca() ax.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') ax.set_xlim(-1, 4) ax.set_ylim(-1, 6) plot_svc_decision_function(model, ax) fig, ax = plt.subplots(1, 2, figsize=(16, 6)) fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1) for axi, N in zip(ax, [60, 120]): plot_svm(N, axi) axi.set_title('N = {0}'.format(N))
觀察可以發現分別使用60個和120個數據點,決策邊界卻沒有發生變化。所有隻要支援向量沒變,其他的資料怎麼加無所謂!
三、引入核函式的SVM
首先我們先用線性的核來看一下在下面這樣比較難的資料集上還能分了嗎?
from sklearn.datasets.samples_generator import make_circles X, y = make_circles(100, factor=.1, noise=.1) # 二維圓形資料 factor 內外圓比例 (0,1) clf = SVC(kernel='linear').fit(X, y) plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') plot_svc_decision_function(clf, plot_support=False);
資料集如圖所示:
很明顯,用線性分類分不了了,那咋辦呢?試試高維核變換吧!
#加入了新的維度r from mpl_toolkits import mplot3d r = np.exp(-(X ** 2).sum(1)) def plot_3D(elev=30, azim=30, X=X, y=y): ax = plt.subplot(projection='3d') ax.scatter3D(X[:, 0], X[:, 1], r, c=y, s=50, cmap='autumn') ax.view_init(elev=elev, azim=azim) # 設定3D檢視的角度 一般都為45 ax.set_xlabel('x') ax.set_ylabel('y') ax.set_zlabel('r') plot_3D(elev=45, azim=45, X=X, y=y)
畫出剛才的資料集的一個3維影象
在 Scikit-Learn 中,我們可以通過使用kernel
模型超引數,將線性核更改為 RBF(徑向基函式,也叫高斯核函式)核來進行核變換,先暫時不管C引數:
#加入徑向基函式 clf = SVC(kernel='rbf', C=1E6) clf.fit(X, y)
得到的SVM模型為
SVC(C=1000000.0, cache_size=200, class_weight=None, coef0=0.0, decision_function_shape='ovr', degree=3, gamma='auto_deprecated', kernel='rbf', max_iter=-1, probability=False, random_state=None, shrinking=True, tol=0.001, verbose=False)
再次進行分類任務
#這回牛逼了! plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') plot_svc_decision_function(clf) plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=300, lw=1, facecolors='none');
分類結果如圖
使用這種核支援向量機,我們學習一個合適的非線性決策邊界。這種核變換策略在機器學習中經常被使用!
四、軟間隔問題
軟間隔問題主要是調節C引數, 當C趨近於無窮大時:意味著分類嚴格不能有錯誤, 當C趨近於很小的時:意味著可以有更大的錯誤容忍
X, y = make_blobs(n_samples=100, centers=2, random_state=0, cluster_std=0.8) plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn');
先看看有噪聲點的資料的分佈
上面的分佈看起來要嚴格地進行劃分的話,似乎不太可能,我們可以進行軟間隔調整看看
X, y = make_blobs(n_samples=100, centers=2, random_state=0, cluster_std=0.8) fig, ax = plt.subplots(1, 2, figsize=(16, 6)) fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1) for axi, C in zip(ax, [10.0, 0.1]): model = SVC(kernel='linear', C=C).fit(X, y) axi.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') plot_svc_decision_function(model, axi) axi.scatter(model.support_vectors_[:, 0], model.support_vectors_[:, 1], s=300, lw=1, facecolors='none'); axi.set_title('C = {0:.1f}'.format(C), size=14)
可以比較不同C引數模型地結果,在實際應用中可以適當調整以提高模型的泛化能力。
下面再看另一個引數gamma值,這個引數只是在高斯核函式裡面才有。這個引數控制著模型的複雜程度,這個值越大,模型越複雜,值越小,模型就越精簡。
X, y = make_blobs(n_samples=100, centers=2, random_state=0, cluster_std=1.1) fig, ax = plt.subplots(1, 2, figsize=(16, 6)) fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1) for axi, gamma in zip(ax, [10.0, 0.1]): model = SVC(kernel='rbf', gamma=gamma).fit(X, y) axi.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') plot_svc_decision_function(model, axi) axi.scatter(model.support_vectors_[:, 0], model.support_vectors_[:, 1], s=300, lw=1, facecolors='none'); axi.set_title('gamma = {0:.1f}'.format(gamma), size=14)
可以比較一下,當這個引數較大時,可以看出模型分類效果很好,但泛化不太好。當這個引數較小時,可以看出模型裡面有些分類是有錯誤的,但是這個泛化能力更好,一般也應有的更多。
四、總結
通過這次簡單的練習,對支援向量機模型有了更加深刻的理解,學習了在支援向量機中SVM的基本使用,以及軟間隔引數的調整,還有核函式變化和gamma值等一些引數的比較。
&n