感知機1 -- 感知機模型
聲明:
1,本篇為個人對《2012.李航.統計學習方法.pdf》的學習總結,不得用作商用。歡迎轉載。但請註明出處(即:本帖地址)。
2,因為本人在學習初始時有非常多數學知識都已忘記,因此為了弄懂當中的內容查閱了非常多資料。所以裏面應該會有引用其它帖子的小部分內容。假設原作者看到能夠私信我。我會將您的帖子的地址付到以下。
3,假設有內容錯誤或不準確歡迎大家指正。
4。假設能幫到你,那真是太好了。
定義
感知機模型說白了就是推斷“屬於規定類?還是不屬於規定類”的模型。
其函數為:
F(x)= sign(w·x + b)
w、b :感知機模型的參數
w∈Rn :權值/權值向量
b∈R :偏置
w·x :w和x的內積
Sign :符號函數
感知機為一種線性分類模型,屬於一宗判別模型
感知機的幾何解釋
首先。其線性方程為w·x + b = 0,於是例如以下圖所看到的:
若該線性方程相應特征空間Rn
第一次總結
綜上所述。感知機預測就是通過學習得到的感知機模型,給出新輸入實力相應的輸出類別。
線性可不可分
對數據集 T={(x1,y1),(x2,y2),...,(xn,yn)},當中x1∈Rn。yi={+1,-1}, i=1, 2, ...,n,若存在一超平面S:
w·x + b = 0
可將數據集的正實例點和負實例點全然正確的劃分到超平面的兩側。即:
對全部的yi = +1的實例i,有w·xi
對全部的yi = -1的實例i,有w·xi+ b < 0
則稱數據集T為線性可分數據集,反之。稱其為線性不可分數據集。
感知機學習策略
於是。其學習策略就是找出一個可將數據集全然正確分離的超平面:
w·x + b = 0
話句話說。就是確定w和b這兩個參數
而為了確定這兩個參數,我們需了解下“損失函數”。
損失函數
我們規定,損失函數為誤分類點到超平面S的總距離。
於是,我們先寫出輸入空間Rn中任一點x0到超平面S的距離:
|w·x + b| / ||w||
這裏||w||為w的L2範數。
對於誤分類的數據(xi,yi)來說:
-yi(wxi + b) > 0
由於。對於誤分類的數據:
w·x + b > 0 時,yi = -1
w·x + b < 0 時。yi = +1
於是
∵誤分類點xi到超平面S的距離為:
-yi(wxi + b) / ||w||
∴ 對於誤分類點集合M。全部誤分類點到S的總距離為:
∴若不考慮1/||w|||,就得到了感知機學習模型的損失函數
最後,損失函數定義為:
對給定數據集 T={(x1,y1),(x2,y2),...,(xn,yn)},當中x1∈Rn,yi={+1,-1}, i=1, 2, ...,n
感知機sign(w·x + b)學習的損失函數定義為:
L(w,b) = -yi(w·xi + b)
當中。M為誤分類點的集合。
第二次總結(關於損失函數)
1, 損失函數L(w, b) 是非負的
2, 若無誤分類點,則損失函數為0
而隨著誤分類點的降低。損失函數的值也會降低
3, 一個特定的樣本的損失函數:
在誤分類時為參數w,b 的線性函數,在正確分類時為0
4, 於是。對給定訓練數據T。損失函數L(w, b)為:w,b的連續可導函數
感知機學習算法的最優化方法
感知機學習算法的最優化的方法為:隨機梯度下降算法。
(類似的還有個:最小二乘法)
感知機學習算法的原始形式
現已知,對於誤分類點的幾何,損失函數為:
L(w,b) = -yi(w·xi + b)
於是乎,我們的目的就是求L(w, b)的極小值,而這裏,我們選擇隨機梯度下降算法來求此極小值。
以下請轉到“隨機梯度下降算法”的總結。
感知機1 -- 感知機模型