（1）單層感知機

阿新 • • 發佈：2019-01-20

1. 概念介紹：

假設輸入空間（特徵空間）是 $X \subseteq R^{n}$ ，輸入空間是Y={+1，-1}. 輸入 $x\in X$ 表示例項的特徵向量，對於應於輸入空間（特徵空間）的點；輸出 $y\in Y$ 表示例項的類別.由輸入空間到輸出空間的如下函式：

$\large f(x)=sign(w\cdot x+b)$

稱為感知機。其中，w和b為感知機模型引數， $w\in R^{n}$ 叫做權值或者權值向量， $b\in R$ 叫做偏置， $w\cdot x$ 表示w和x的內積，sign是符合函式，即

$sign(x)=\left\{\begin{matrix} +1, \quad x \geq 0\\ -1, \quad x<0 \end{matrix}\right.$

感知機一種線性分類模型，屬於判別模型。

單層感知機形象化理解：

感知機的幾何解釋：線性方程

$\large w\cdot x+b=0$

對應於特徵空間的 $R^{^{n}}$ 中的一個超平面S，其中w是超平面的法向量，b是超平面的截距，這個超平面將特殊空間劃分為兩部分，位於兩部分的點（特徵向量）分別被分為正、負兩類。因此，超平面S成為分離超平面，如圖所示：

2. 感知機的學習策略

2.1關於資料集的線性可分性

定義（資料集的線性可分性）給定一個數據集 $T=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}) \right \}$ ，其中 $x\in X=R^{^{n}}$ ， $y_{i}\in Y=\left \{ +1,-1 \right \},\quad i=1,2,...,N$ ，如果存在某個超平面S能夠將資料集的正例項點和負例項點完全正確地劃分到超平面的兩側，即對於所有的 $y_{i}=+1$

的例項i,都有 $w\cdot x_{i}+b>0$ ，對所有的 $y_{i}=-1$ 的例項i，有 $w\cdot x_{i}+b<0$ ，則稱資料集T線性可分資料集，否則，稱資料集T線性不可分。

2.2感知機的學習策略

假設訓練資料集是線性可分的，感知機學習目標的要求是求得一個能夠將訓練集正例項點和負例項點完全分開的分離超平面。為了找到這樣的超平面，需要知道感知機模型引數w和b，需要確定一個學習策略，即定義經驗損失函式（ $R_{emp}(f)=\frac{1}{N}L(y_{i},f(x_{i}))$ ）並將損失函式極小化。

損失函式的一個自然選擇是誤分類點的總數，但是，這樣的損失函式不是引數w和b的連續損失函式，不易優化。我們需要轉變思路，可以使用誤分類點到超平面的總距離來計算損失函式。思路如下：

首先寫入輸入空間 $R^{n}$ 中任一點 $x_{0}$ 到超平面的距離：

$\large \frac{1}{\left \| w \right \|}\left | w\cdot x_{0}+b \right |$

這裡， $\left \|w \right \|$ 是w的 $L_{2}$ 的範數。

對於正確分類的點滿足 $y_{i}(w\cdot x_{i}+b)>0$ ，而對於那些誤分類的資料 $(x_{i},y_{i})$ 來說，滿足 $-y_{i}(w\cdot x_{i}+b)>0$ ,因為誤分類點線性不可能，那麼誤分類點 $x_{i}$ 到超平面S的距離為：

$\large -\frac{1}{\left \| w \right \|}y_{i}\left (w\cdot x_{0}+b \right )$

這樣，假設超平面S的誤分類點的集合為M,那麼所有的誤分類點到超平面S的總距離為

$\large -\frac{1}{\left \| w \right \|} \sum_{x_{i}\in M}^{ } y_{i}\left (w\cdot x_{i}+b \right )$

不考慮 $\frac{1}{\left \| w \right \|}$ ，就得到感知機學習的損失函式。

給定訓練資料集

$\large T=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}) \right \}$

其中， $x\in X=R^{^{n}}$ ， $y_{i}\in Y=\left \{ +1,-1 \right \},\quad i=1,2,...,N$ ，感知機 $sign(w\cdot x+b)$ 學習的損失函式定義為

$\large L(w,b)=- \sum_{x_{i}\in M}^{ } y_{i}\left (w\cdot x_{i}+b \right )$

其中M為誤分類點的集合，這個損失函式就是感知機學習的經驗風險函式。

$\large \Rightarrow$ 損失函式 $L(w,b)$ 是非負的，如果沒有誤分類點，損失函式值是0，而且，誤分類點越少，誤分類點離超平面的就越近，損失函式值就越小。一個特定的樣本點的損失函式：在誤分類時是引數為w,b的線性函式，在正確分類時0，因此，給定訓練資料集T,損失函式 $L(w,b)$ 是w,b的連續可導函式。

$\Rightarrow$ 感知機學習的策略就是在假設空間中選取損失函式式最小的模型引數w,b，即感知機模型。

2.3 感知機學習演算法

2.3.1 感知機學習演算法的原始形式

感知機學習演算法是對以下最優化問題的演算法，給定一個訓練資料集

$\large T=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}) \right \}$

其中， $x\in X=R^{^{n}}$ ， $y_{i}\in Y=\left \{ +1,-1 \right \},\quad i=1,2,...,N$ ，求引數w和b，使其為以下損失函式極小化問題的解

$\large \min_{w,b}^{ }L(w,b)=-\sum_{x_{i}\in M}^{ }y_{i}(w\cdot x_{i}+b) \quad \quad (2.5)$

其中M為誤分類點的集合

感知機學習演算法是誤分類點驅動的，具體採用隨機梯度下降演算法。首先，任意選取一個超平面 $w_{0},b$ ，然後用梯度下降演算法不斷地極小化目標函式(2.5)。極小化過程不是一次使得M中所有誤分類點的梯度下降，而是一次隨機選取一個誤分類點使其梯度下架。

假設誤分類點集合M是固定的，那麼損失函式 $L(w,b)$ 的梯度由

$\triangledown _{w} L(w,b)=-\sum_{x_{i}\in M}^{ }y_{i}x_{i}$

$\triangledown _{b} L(w,b)=-\sum_{x_{i}\in M}^{ }y_{i}$

給出。

隨機選取一個誤分類點 $(x_{i},y_{i})$ ，對w,b進行更新：

$w\leftarrow w+\eta y_{i}x_{i}$

$b\leftarrow b+\eta y_{i}$

式中 $\eta (0< \eta \leq 1)$ 是步長，在統計學習中又稱為學習率，這樣通過迭代可以期待損失函式 $L(w,b)$ 不斷減小，直到為0.綜上所述，可以得到如下演算法：

感知機學習演算法的原始形式

輸入：訓練資料集 $T=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}) \right \}$ ，其中 $x\in X=R^{^{n}}$ ， $y_{i}\in Y=\left \{ +1,-1 \right \},\quad i=1,2,...,N$ ；學習率 $\eta (0< \eta \leq 1)$ ；

輸出：w，b；感知機模型 $f(x)=sign(w\cdot x+b)$

（1）選取初值 $w_{0},b_{0}$

（2）在訓練集中選取資料 $(x_{i},y_{i})$

（3）如果 $y_{i}(w\cdot x_{i}+b)\leq 0$

$w\leftarrow w+\eta y_{i}x_{i}$

$b\leftarrow b+\eta y_{i}$

（4）轉至（2），直至訓練集中沒有誤分類點。

例1.如圖所示的訓練資料集，其正例項點是 $x_{1}=(3,3)^{\mathrm{T}},x_{2}=(4,3)^{\mathrm{T}},$ 負例項點是 $x_{3}=(1,1)^{\mathrm{T}}$ ，試用感知機學習演算法的原始形式求感知機模型 $f(x)=sign(w\cdot x+b)$ .這裡， $w=(w^{(1)},w^{(2)})^{\mathrm{T}},x=(x^{(1)},x^{(2)})^{\mathrm{T}}.$

解構建最優化問題：

$\min_{w,b}^{ }L(w,b)=-\sum_{x_{i}\in M}^{ }y_{i}(w\cdot x_{i}+b)$

按照感知機學習演算法的原始形式，求解w，b。這裡 $\eta=1$ .

（1）去初值 $w_{0}=0,b_{0}=0$

（2）對 $x_{1}=(3,3)^{\mathrm{T}}$ ， $y_{1}(w_{0}\cdot x_{1}+b_{0})=0$ ，未能被正確分類，更新w，b

$w_{1}=w_{0}+y_{1}x_{1}=(3,3)^{\mathrm{T}},b_{1}=b_{0}+y_{1}=1$

得到線性模型

$w_{1}\cdot x+b_{1}=3\cdot x^{(1)}+3\cdot x^{(2)}+1$

(3)對於 $x_{1},x_{2},$ 顯然， $y_{i}(w_{1}\cdot x_{i}+b_{1})> 0$ ，被正確分類，不修改w，b；

對 $x_{3}=(1,1)^{\mathrm{T}}$ ， $y_{3}(w_{1}\cdot x_{3}+b_{1})< 0$ ，被誤分類，更新w，b.

$w_{2}=w_{1}+y_{3}x_{3}=(2,2)^{\mathrm{T}},b_{2}=b_{1}+y_{3}=0$

得到線性模型

$w_{2}\cdot x+b_{2}=2\cdot x^{(1)}+2\cdot x^{(2)}$

如此繼續下去，直到

$w_{7}=(1,1)^{\mathrm{T}},b_{7}=-3$

$\Rightarrow$ 線性模型： $w_{7}\cdot x+b_{7}=\cdot x^{(1)}+\cdot x^{(2)}-3$

$\Rightarrow$ 對於所有的資料點 $y_{i}(w_{7}\cdot x_{i}+b_{7})> 0$ ，即沒有誤分類點，損失函式達到極小。

分離超平面為 $x^{(1)}+\cdot x^{(2)}-3=0$

感知機模型為 $f(x)=sign(x^{(1)}+x^{(2)}-3)$

程式碼如下：

#!usr/bin/env python3

#coding=utf-8

import numpy as np

import matplotlib.pyplot as plt

import matplotlib.animation as animation

"感知機的原始形式"

x=np.array([[3,3],[4,3],[1,1]]) #建立資料集，共是三個例項

y=np.array([1,1,-1]) #建立標籤

store=[]

w=np.array([0, 0])

b=0 #初始化引數w,b

k=0 #k計算迭代次數

learnrate=1 #設定學習率為1

condition=True

while condition:

count=0

for i in range(len(x)):

if y[i]*(np.dot(w,x[i].T)+b)<=0: #用來檢測誤分類

w=w+learnrate*y[i]*x[i].T #更新w

b=b+learnrate*y[i] #更新b

store.append([w,b])

count=count+1

k=k+1

print('w的值:{0} b的值:{1} 迭代次數:{2}'.format(w, b, k))

if count==0:

k=k+1

print('w的值:{0} b的值:{1} 迭代次數:{2}'.format(w, b, k))

store.append([w,b])

condition=False

print(store)

fig=plt.figure()

ax=plt.axes(xlim=(-7,7),ylim=(-7,7))

line,=ax.plot([],[],'b',linewidth=3)

label=ax.text([],[],'')

#用來畫出是三個例項點

def plot_three_point():

global x, y, line, label

plt.axis([-6,6,-6,6])

p1=plt.scatter(x[0:2,0],x[0:2,1],c='b',marker='o',s=60)

p2=plt.scatter(x[2,0],x[2,1],c='r',marker='x',s=60)

plt.grid(True)

plt.xlabel('x1')

plt.ylabel('x2')

plt.legend([p1,p2],['正例項點','負例項點'],loc=1)

plt.rcParams['font.sans-serif'] = ['SimHei']

plt.rcParams['axes.unicode_minus'] = False

plt.title('感知機迭代過程圖')

return line,label

#畫出動態的圖形

def animate(index):

global store,ax,line,label

w=store[index][0]

b=store[index][1]

if w[1]==0:

return line,label

x1=-6

y1=-(b+w[0]*x1)/w[1]

x2=6

y2=-(b+w[0]*x2)/w[1]

line.set_data([x1,x2],[y1,y2])

x1=0

y1=-(b+w[0]*x1)/w[1]

label.set_text("w:{}".format(str(store[index][0])) + ' ' +"b:{}".format(str(b)))

label.set_position([x1,y1])

return line,label

ani=animation.FuncAnimation(fig,animate,init_func=plot_three_point,frames=len(store),interval=1000,repeat=True,blit=True)

plt.show()

ani.save('perceptron.gif',fps=200,writer='imagemagick')

2.3.2 演算法的收斂性

關於線性可分資料集感知機學習演算法原始形式收斂問題，我們可以轉換為即通過有限次迭代可以得到一個將訓練資料集完全正確劃分的分離超平面及感知機模型。

為了便於推導，在這裡我們將偏置b併入權重向量w,記作 $\widehat{w}=(w^{\mathrm{T}},b)^{\mathrm{T}}$ ，同樣也將輸入向量加以擴充，加進常數1，記作 $\widehat{x}=(x^{\mathrm{T}},1)^{\mathrm{T}}$ 。這樣， $\widehat{x}\in R^{n+1},\widehat{w}\in R^{n+1}$ 。顯然， $\widehat{w}\cdot \widehat{x}=w\cdot x+b$

定理：設訓練資料集 $T=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}) \right \}$ 是線性可分的，其中 $x\in X=R^{^{n}}$ ， $y_{i}\in Y=\left \{ +1,-1 \right \},\quad i=1,2,...,N$ ，則有

（1）存在滿足條件 $\left \| \widehat{w}_{opt} \right \|=1$ 的超平面 $\widehat{w}_{opt}\cdot \widehat{x}=w_{opt} \cdot x+b_{opt}=0$ 將訓練資料集完全正確分開；且存在 $\gamma>0$ ，對所有 $i=1,2,...,N,$ 則有

$y_{i}(\widehat{w}_{opt}\cdot \widehat{x_{i}})=y_{i}(w_{opt} \cdot x_{i}+b_{opt})\geq \gamma \quad \quad \quad \quad \quad \quad \quad \quad(2.8)$

（2）令 $\small R=\max_{1\leq i\leq N}^{ }\left \| \widehat{x_{i}} \right \|$ ，感知機學習演算法的原始形式在誤分類次數k滿足不等式

$\small k\leq \left ( \frac{R}{r} \right )^{2} \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad (2.9)$

證明如下圖所示：

證明（1）

證明（2）

2.3.3 感知機學習演算法的對偶形式

對偶形式的基本思想：將w和b表示為例項 $\small x_{i}$ 和標記 $\small y_{i}$ 的線性組合形式，通過求解其係數而求得w和b。不失一般性，在感知機學習演算法的原始形式中，可初始化 $\small w_{0},b_{0}$ 均為0，對於誤分類點 $(x_{i},y_{i})$ 通過

$w\leftarrow w+\eta y_{i}x_{i}$

$b\leftarrow b+\eta y_{i}$

逐步修改w，b，設修改n次，則w，b關於 $(x_{i},y_{i})$ 的增量分別是 $\large \alpha y_{i}x_{i}$ 和 $\large \alpha y_{i}$ ，這裡 $\large \alpha_{i} =n_{i}\eta$ 。這樣，從學習過程不難看出，最後學習到的w，b可以分別表示為

$\large w=\sum_{i=1}^{N}\alpha_{i}y_{i}x_{i} \quad \quad \quad \quad \quad \quad \quad \quad \quad (2.14)$

$\large b=\sum_{i=1}^{N}\alpha_{i}y_{i} \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad(2.15)$

這裡， $\alpha \geq 0,i=1,2,...,N$ ，當 $\eta=1$ 時，表示第i個例項點由於誤分而進行更新的次數。例項點更新次數越多，意味著它距離分離超平面越近，也就越難正確分類。換句話說，這樣的例項對學習結果影響最大。

感知機學習演算法的對偶形式

輸入：線性可分的資料集 $T=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}) \right \}$ ，其中 $x\in X=R^{^{n}}$ ， $y_{i}\in Y=\left \{ +1,-1 \right \},\quad i=1,2,...,N$ ；學習率 $\eta (0< \eta \leq 1)$ ；

輸出： $\alpha,b$ ；感知機模型 $f(x)=sign(\sum_{j=1}^{N}\alpha _{j}y_{j}x_{j}\cdot x+b)$

其中， $\alpha =(\alpha _{1},\alpha_{2} ,...,\alpha _{N})^{\mathrm{T}}$ .

（1） $\alpha \leftarrow 0, b\leftarrow 0$

（2）在訓練集中選取資料 $(x_{i},y_{i})$

（3）如果 $y_{i}(\sum_{j=1}^{N}\alpha _{j}y_{j}x_{j}\cdot x_{i}+b)\leq 0$ ，執行

$\alpha _{i} \leftarrow \alpha_{i} +\eta$

$b\leftarrow b+\eta y_{i}$

（4）轉至（2）直到沒有誤分類資料

對偶形式中訓練例項僅以內積的形式出現，為了方便，可以預先將訓練集中的例項間的內積計算出來並以矩陣的形式儲存，這個矩陣就是所謂的Gram矩陣

$G=\left [x_{i}\cdot x_{j} \right ]_{N\times N}$

例2.資料同例1，正樣本點是 $x_{1}=(3,3)^{\mathrm{T}}$ ， $x_{2}=(4,3)^{\mathrm{T}}$ ，負樣本點是 $x_{3}=(1,1)^{\mathrm{T}}$ ，試用感知機學習演算法對偶形式求感知機模型。

解按照感知機演算法對偶形式求感知機模型

（1）取 $\alpha _{i}=0,i=1,2,3,b=0,\eta =1$

（2）計算Gram矩陣

$G=\left[ \begin{matrix} 18 & 21 & 6 \\ 21 & 25 & 7 \\ 6 & 7 & 2 \end{matrix} \right]$

（3）誤分條件

$y_{i}(\sum_{j=1}^{N}\alpha _{j}y_{j}x_{j}\cdot x_{i}+b)\leq 0$

引數更新

$\alpha _{i}\leftarrow \alpha _{i}+1,\quad b\leftarrow b+y_{i}$

（4）經過多次迭代和更新 $\alpha _{i},b$ 值可以得到最終結果

$w=2x_{i}+0x_{2}-5x_{3}=(1,1)^{\mathrm{T}}$

$b=-3$

分離超平面

$x^{(1)}+x^{(2)}-3=0$

最終得到感知機模型

$f(x)=sign(x^{(1)}+x^{(2)}-3)$

執行的程式碼如下所示：

#!usr/bin/env python3
#coding=utf-8
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.animation as animation

"感知機的對偶形式"
x=np.array([[3,3],[4,3],[1,1]]) #建立資料集，共是三個例項
y=np.array([1,1,-1]) #建立標籤
list_1=[] #用於儲存w,b引數
list=[] #用於儲存變化的alpha,b值

gramMatrix=x.dot(x.T)
alpha=np.zeros(len(x))
b=0 #引數b初始化
k=0 #k計算迭代次數
learnrate=1 #設定學習率為1
condition=True
while condition:
count=0
for i in range(len(x)):
if y[i]*(np.sum(alpha*y*gramMatrix[i])+b)<=0:
alpha[i]=alpha[i]+learnrate
b=b+learnrate*y[i]
list_1.append([(alpha*y.T).dot(x),b])
list.append([np.array(alpha),b])
print(alpha)
k=k+1
count=count+1
print('alpha:{0} b:{1} k:{2}'.format(alpha, b, k))
if count==0:
condition=False
#print(list_1)
#print(list)

fig=plt.figure()
ax=plt.axes(xlim=(-7,7),ylim=(-7,7))
line,=ax.plot([],[],'b',linewidth=3)
label=ax.text([],[],'')

#用來畫出是三個例項點
def plot_three_point():
global x, y, line, label
plt.axis([-6,6,-6,6])
p1=plt.scatter(x[0:2,0],x[0:2,1],c='b',marker='o',s=60)
p2=plt.scatter(x[2,0],x[2,1],c='r',marker='x',s=60)
plt.grid(True)
plt.xlabel('x1')
plt.ylabel('x2')
plt.legend([p1,p2],['正例項點','負例項點'],loc=1)
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.title('感知機對偶形式迭代過程圖')
return line,label

#畫出動態的圖形
def animate(index):
global list_1,ax,line,label
w=list_1[index][0]
b=list_1[index][1]
if w[1]==0:
return line,label
x1=-6
y1=-(b+w[0]*x1)/w[1]
x2=6
y2=-(b+w[0]*x2)/w[1]
line.set_data([x1,x2],[y1,y2])
x1=0
y1=-(b+w[0]*x1)/w[1]
label.set_text("alpha:{}".format(str(list[index][0])) + ' ' +"b:{}".format(str(b)))
label.set_position([x1,y1])
return line,label
ani=animation.FuncAnimation(fig,animate,init_func=plot_three_point,frames=len(list_1),interval=1000,repeat=True,blit=True)
plt.show()
ani.save('perceptron_dual_form.gif',fps=200,writer='imagemagick')

（1）單層感知機

（1）單層感知機

詳解SVM系列（一）：感知機

人工神經網路（二）單層感知器

機器學習/深度學習測試題（一） —— 單層感知器的啟用函式

機器學習演算法原理與實踐（六）、感知機演算法

統計學習方法學習筆記（二）：感知機

機器學習回顧篇（10）：感知機模型

【機器學習筆記19】神經網路（單層感知機）

MATLAB神經網路學習（1）：單層感知器

TensorFlow HOWTO 4.1 多層感知機（分類）

【統計學習方法讀書筆記】感知機的個人理解（1）

機器學習筆記（1）感知機演算法之實戰篇

[轉]Jetson TX1 開發教程（1）配置與刷機

OpenCV 從入門到放棄（1）虛擬機 Ubuntu16.04+ python安裝opencv

KVM虛擬機&openVSwitch雜記（1）

虛擬機的使用（1）

（1）虛擬機管理——在微軟雲Azure新門戶創建虛擬機

【JVM虛擬機】（1）---常用JVM配置參數

了解java虛擬機---JVM的基本結構（1）

TensorFlow 訓練 MNIST （1）—— softmax 單層神經網絡

（1）單層感知機

相關推薦