前言

邏輯迴歸是分類當中極為常用的手段，因此，掌握其內在原理是非常必要的。我會爭取在本文中儘可能簡明地展現邏輯迴歸(logistic regression)的整個推導過程。

什麼是邏輯迴歸

邏輯迴歸在某些書中也被稱為對數機率迴歸，明明被叫做迴歸，卻用在了分類問題上，我個人認為這是因為邏輯迴歸用了和迴歸類似的方法來解決了分類問題。
假設有一個二分類問題，輸出為 $y \in {0, 1}$ ，而線性迴歸模型產生的預測值為 $z = w^{T} x + b$ 是實數值，我們希望有一個理想的階躍函式來幫我們實現 $z$ 值到 $0 / 1$ 值的轉化。

ϕ (z) = {\begin{cases} 0 & if z < 0 \\ 0.5 & if z = 0 \\ 1 & if z > 0 \end{cases}

然而該函式不連續，我們希望有一個單調可微的函式來供我們使用，於是便找到了

S i g m o i d f u n c t i o n

來替代。

ϕ (z) = \frac{1}{1 + e^{- z}}

兩者的影象如下圖所示（圖片出自文獻2）
sigmoid

圖1：sigmoid & step function
有了

S i g m o i d f u c t i o n

之後，由於其取值在

[0, 1]

，我們就可以將其視為類

1

的後驗概率估計

p (y = 1 | x)

。說白了，就是如果有了一個測試點

x

，那麼就可以用

S i g m o i d f u c t i o n

算出來的結果來當做該點

x

屬於類別

1

的概率大小。
於是，非常自然地，我們把

S i g m o i d f u c t i o n

計算得到的值大於等於

0.5

的歸為類別

1

，小於

0.5

的歸為類別

0

。

\hat{y} = {\begin{cases} 1 & i f ϕ (z) \geq 0.5 \\ 0 & o t h e r w i s e \end{cases}

同時邏輯迴歸與自適應線性網路非常相似，兩者的區別在於邏輯迴歸的啟用函式是

S i g m o i d f u n c t i o n

而自適應線性網路的啟用函式是

y = x

，兩者的網路結構如下圖所示（圖片出自文獻1）。
adaline

圖2：自適應線性網路
logisticRegression

圖3：邏輯迴歸網路

邏輯迴歸的代價函式

好了，所要用的幾個函式我們都有了，接下來要做的就是根據給定的訓練集，把引數 $w$ 給求出來了。要找引數 $w$ ，首先就是得把代價函式（cost function）給定義出來，也就是目標函式。
我們第一個想到的自然是模仿線性迴歸的做法，利用誤差平方和來當代價函式。

J (w) = \sum_{i} \frac{1}{2} (ϕ (z^{(i)}) - y^{(i)})^{2}

其中，

z^{(i)} = w^{T} x^{(i)} + b

，

i

表示第

i

個樣本點，

y^{(i)}

表示第

邏輯迴歸(logistic regression)的本質——極大似然估計

前言

什麼是邏輯迴歸

邏輯迴歸的代價函式