1. 程式人生 > >機器學習總結(三)——SVM

機器學習總結(三)——SVM

這裡寫圖片描述

1. SVM的原理是什麼

svm是一種二分類模型,是一種在特徵空間中尋找間隔最大化的分離超平面的線性分類器。

  • 線性可分樣本:可以通過硬間隔最大化學習線性分類器實現。
  • 近似線性可分:通過引入鬆弛變數,通過軟間隔最大化,學習線性分類器;
  • 非線性樣本:通過核技巧與軟間隔最大化學習非線性支援向量機;

2. SVM為什麼採用間隔最大化

利用間隔最大化求得的最優分離超平面是唯一的。分離超平面產生的分類結果是最魯棒的,泛化能力最強。(採用其他策略可能得到的分類面有無數個,無法判斷哪一個最優)

3. 函式間隔、幾何間隔、點到超平面的距離

函式間隔:樣本點到超平面的函式間隔為y*(w*x + b),可以用來表示分類預測的正確性及確信度。

幾何間隔:為了防止函式間隔隨超引數的等比例變化,對法向量w進行約束,即函式間隔除以w的L2範數,為y*(w*x + b)/||w||2。

點到超平面的距離為:(w*x + b) / ||w||2

4. SVM為什麼要引入核函式?有哪些核函式?

當樣本在原始空間線性不可分時,可將樣本從原始空間對映到一個更高維的特徵空間,使得樣本在這個特徵空間內線性可分。核函式可以實現這種對映。

**常見的核函式:**RBF徑向基函式核(高斯核函式是RBF的特例),多項式核函式,線性核函式,sigmod核函式。

5. 為什麼要將求解SVM的原始問題轉換為其對偶問題

對偶問題往往更容易求解。同時更方便的講約束條件與目標函式融合起來方便優化。

6. SVM的優缺點

優點:

  • 適合於線性分類或者非線性分類;
  • 低的泛化誤差;

缺點:

  • 對引數和核函式的選擇比較敏感;
  • 對大規模訓練樣本難以實施;