《統計學習方法筆記》——Logistic迴歸

阿新 • • 發佈：2019-01-13

Logistic迴歸簡介

假設有一些資料點，我們利用一條直線對這些資料點進行擬合（該線稱為最佳擬合直線），這個擬合過程就稱為迴歸。利用Logistic進行迴歸的主要思想：根據現有資料對分類邊界線建立迴歸公式，以此進行分類。

演算法流程

1.優化目標函式

需要的函式應該是可以接受所有的輸入然後預測出類別。
例如，在兩類的情況下，上述函式輸出0或1。海維塞德階躍函式或者直接稱為單位階躍函式滿足這一性質。然而，海維塞德階躍函式存在以下問題：該函式在跳躍點上從0瞬間跳躍到1，這個瞬間過程很難處理。因此，我們一般選擇Sigmoid函式。Sigmoid函式具體公式如下：

σ(z)=11+e−z
這裡寫圖片描述

當x為0時。sigmoid函式值為0.5。隨著x的增大，sigmoid函式值趨近於1；而隨著x的減小,sigmoid函式值趨近於0。當橫座標足夠大時，sigmoid函式看起來很像一個階躍函式。
為了實現logistic迴歸分類器，可以在每個特徵上都乘以一個迴歸係數，然後吧所有的結果值想家，將這個綜合帶入sigmoid函式中，進而得到一個範圍在0-1之間的數值。任何大於0.5的資料被分入1類，小於0.5即被歸入0類。所以Logistic迴歸也可以被看成是一種概率估計。

2.基於最優化方法的最佳迴歸係數確定

sigmoid函式的輸入記為z,由下面公式得出：

z=w0x0+w1x1+w2x2+...+wnxn

如果採用向量的寫法，上述公式可以寫成z=wTx,它表示將這兩個數值向量對應元素相乘然後全部加起來得到z值。其中的向量x是分類器的輸入資料，向量w是我們要找到的最佳係數，從而使得分類器儘可能的精確。

梯度上升法
梯度上升法基本的思想是：找到某函式的最大值，最好的方法是沿著該函式的梯度方向探尋。梯度上升演算法的迭代公式如下所示：
w:=w+α▽wf(w)
步長為α,該公式將一直被迭代執行，直到達到某個停止條件為止，比如迭代次數達到某個指定值或演算法達到某個可以允許的誤差範圍。
梯度上升演算法用來求函式的最大值，而梯度下降演算法用來求函式的最小值。
隨機梯度上升
梯度演算法一次處理所有資料,是“批處理”。
梯度演算法問題：

由於梯度上升演算法在每次更新迴歸係數時，都要遍歷真個資料集，當資料量很大時，該方法的計算複雜度就太高了。梯度上升演算法在迭代過程中係數會出現一些小的週期性波動，產生這種現象的原因是存在一些不能正確分類的樣本點（資料集並非線性可分）。而且收斂速度也需要加快。
隨機梯度上升演算法一次僅使用一個樣本來更新迴歸系統，在新樣本到來時對分類器進行增量式更新，是“線上學習”演算法。
隨機梯度上升演算法的改進：1）步長在每次迭代的時候都會調整，以此來緩解資料波動或高頻波動。
2）隨機選擇樣本來更新迴歸係數。這樣減少週期性的波動。

優缺點及適用範圍

優點：計算代價不高，易於理解和實現。
缺點：容易欠擬合，分類精度可能不高。
適用資料型別：數值型和標稱型資料。

《統計學習方法筆記》——Logistic迴歸

Logistic迴歸簡介

演算法流程

1.優化目標函式

2.基於最優化方法的最佳迴歸係數確定

優缺點及適用範圍

統計學習方法6—logistic迴歸和最大熵模型

李航·統計學習方法筆記·第6章 logistic regression與最大熵模型（1）·邏輯斯蒂迴歸模型

《統計學習方法筆記》——Logistic迴歸

《統計學習方法》-邏輯迴歸筆記和python原始碼

統計學習方法筆記9—EM演算法2

【ML】統計學習方法筆記

李航—統計學習方法筆記（一）

統計學習方法筆記1

統計學習方法筆記7.1

統計學習方法筆記（一）：K近鄰法的實現：kd樹

統計學習方法筆記二---感知機(Perceptron Learning Algorithm,PLA)

統計學習方法筆記（三）K近鄰演算法

統計學習方法筆記（三）統計學習方法簡介

統計學習方法筆記（一）統計學習方法簡介

李航-統計學習方法筆記（一）：統計學習方法概論

【統計學習方法-李航-筆記總結】六、邏輯斯諦迴歸和最大熵模型

統計學習方法|Logistic迴歸

《統計學習方法（李航）》邏輯斯蒂迴歸與最大熵模型學習筆記

邏輯斯諦迴歸與最大熵模型-《統計學習方法》學習筆記

邏輯斯諦迴歸（Logistic regression）—《統計學習方法》

《統計學習方法筆記》——Logistic迴歸

Logistic迴歸簡介

演算法流程

1.優化目標函式

2.基於最優化方法的最佳迴歸係數確定

優缺點及適用範圍

相關推薦