感知機整理筆記

阿新 • • 發佈：2018-12-20

基於《統計學習方法》的感知機內容以及自己的理解整理如下。 應用場景 按李航老師的定義：感知機(perceptron)是二分類的線性分類模型，其輸入為例項的特徵向量，輸出為例項的類別(取+1 ，-1二值)，感知機對應於輸入空間(特徵空間)中將例項分為正負兩類的分離超平面，屬於判別模型。使用場景較多，比如對網站某個廣告位進行點選預估，就可以使用感知機離線訓練樣本，特徵空間就是樣本使用者的瀏覽點選行為等，樣本類別就是使用者屬於曝光、曝光點選。感知機是1957年Rosenblatt提出，是神經網路與支援向量機的基礎，感知機雖然是線性分類模型，但多層感知機組成的神經網路可以處理非線性問題，神經網路的單個神經元就是感知機。 感知機數學定義

　　假設輸入空間（特徵空間） $\chi \subseteq \mathbb{R}^{n}$ ，輸出空間是 $Y\subseteq \left \{ +1 \right ,-1\}$ ，輸入 $x\in \chi$ 表示例項的特徵向量，對應輸入空間（特徵空間）點；

輸出 $y\in Y$ 表示例項的類別，輸入空間到輸出空間的對映函式 $f(x) = sign(w*x+b)$ 稱為感知機。

其中w b為模型引數，w*x表示內積，sign表示指示函式：

$sign(x)=\left\{\begin{matrix}+1 && x>=0 & & \\ -1 && x<0 & & \end{matrix}\right.$

感知機幾何解釋

線性方程 $w*x+b=0$ ，對應於特徵空間 Rⁿ超平面S，S的法向量為w，S的截距為b。超平面S將特徵空間分為兩部分，位於兩部分（特徵空間）

的點分為正負兩類，因此也稱為分離超平面。二維空間分離平面示意圖：

感知機的學習策略

給定訓練集，需要找到模型引數w 、b，確定將正負樣例正確分開的超平面。這時我們需要定義損失函式並極小化。損失函式一個自然的想法是誤分類點

的總數，但它不是w 、b的連續可導數；另一個想法是計算所有誤分類點到超平面S的距離 $\Sigma$ ，其中任一點 $x$ 到S的距離可表示為：

$\frac{1}{||w||} (w*x+b)$ ，其中 $||w||$ 是w的L₂範數。

對於誤分類的資料(x_i,y_i)有： $-yi(w*xi+b)>0$

誤分類點集合有： $\left\{\begin{matrix}w*x_{i}+b>0 & y_{i}=-1 & & \\ w*x_{i}+b<0 & y_{i}=+1 & & \end{matrix}\right.$

誤分類點 $x_{i}$ 到超平面S的距離為： $-\frac{1}{||w||}y_{i}(w*x_{i}+b)$

因此所有誤分類點到超平面的距離為： $-\frac{1}{||w||}\sum _{x_{i}\in M}y_{i}(w*x_{i}+b)$ ，M為誤分類點的集合。

不考慮 $\frac{1}{||w||}$ 就得到感知機的損失函式 $L(w,b)= -\sum_{x_{i}\in M}y_{i}(x_{i}*w+b)$ ，感知機的學習策略就是在假設空間選取使 $L(w,b)$ 最小的模型引數w 、b。

感知機損失函式極小化方法

感知機誤分類集合M，所有點離超平面S越近， $L(w,b)$ 越小，而 $L(w,b)$ 對 $w,b$ 是連續可導的，對w求偏導得：

$\frac{\partial L(w,b)}{\partial w} = -\sum _{x_{i}\in M}y_{i}*x_{i}$

對b求偏導得：

$\frac{\partial L(w,b)}{\partial b} = -\sum _{x_{i}\in M}y_{i}$

訓練時隨機選取誤分類點 $(x_{i},y_{i})$ 對 $w,b$ 更新：

$w \leftarrow w+\eta y_{i}*x_{i}$

$b \leftarrow b+\eta y_{i}$

其中 $\eta$ $(0 <\eta <=1)$ 為學習率或步長。

比較直觀的程式碼實現：

# 資料線性可分，二分類資料
# 此處為一元一次線性方程
class Model:
    def __init__(self):
        self.w = np.ones(len(data[0])-1, dtype=np.float32)
        self.b = 0
        self.l_rate = 0.1
        # self.data = data
    
    def sign(self, x, w, b):
        y = np.dot(x, w) + b
        return y
    
    # 隨機梯度下降法
    def fit(self, X_train, y_train):
        is_wrong = False
        while not is_wrong:
            wrong_count = 0
            for d in range(len(X_train)):
                X = X_train[d]
                y = y_train[d]
                if y * self.sign(X, self.w, self.b) <= 0:
                    self.w = self.w + self.l_rate*np.dot(y, X)
                    self.b = self.b + self.l_rate*y
                    wrong_count += 1
            if wrong_count == 0:
                is_wrong = True
        return 'Perceptron Model!'
        
    def score(self):
        pass

感知機的收斂性

Novikoff定理說明：1）線性可分的樣本一定存在超平面將正負樣本分開；

2）誤分類次數有上限，經過有限次搜尋可以找到樣本完全正確分開的超平面，也就是說原始形式通過不斷迭代是收斂的。

3）當樣本線性不可分時，感知機演算法不收斂，原始形式迭代過程會發生震盪。

4）感知機的演算法存在許多解，依賴於初值選擇，也依賴於誤分類點在迭代過程中的順序。

5）在增加約束條件下，可以得到唯一分離超平面。

感知機學習對偶形式

　　感知機學習演算法對偶形式：
　　輸入：線性可分的資料集 $T={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}))}$ 其中 $x_{i}\in R^{n}$ ， $y_{i}\in\left \{ -1 \right ,+1\}$ ，i=1,2...N，學習率 $\eta (0<\eta <=1)$