1. 程式人生 > >1.2.11 【Deep Learning翻譯系列】Explanation of Logistic Regression Cost Function 對數機率迴歸代價函式的說明

1.2.11 【Deep Learning翻譯系列】Explanation of Logistic Regression Cost Function 對數機率迴歸代價函式的說明

視訊地址

本視訊給出在對數機率迴歸使用這個成本函式的理由。
在之前的對數機率迴歸中,預測 y ^ = σ ( ω T

x + b ) , \hat y=\sigma(\omega^Tx+b),
其中, σ (
z ) = 1 1 + e
z
\sigma(z)=\frac 1 {1+e^{-z}}

作者對此的解釋是: y ^ = P ( y = 1 x ) \hat y=P(y=1|x) 。 即對於給定的一組輸入的特徵量 x x ,其對應的 y = 1 y=1 的機會。
另一種說法是,如果 y = 1 y=1 ,那麼 P ( y x ) = y ^ P(y|x)=\hat y
反之,如果如果 y = 1 y=1 ,那麼 P ( y x ) = 1 y ^ P(y|x)=1-\hat y
所以綜合考慮這兩種情況, P ( y x ) = y ^ y ( 1 y ^ ) 1 y P(y|x)=\hat y^y(1-\hat y)^{1-y}

因為 log \log 函式是單調遞增的,對 P ( y x ) P(y|x) 取對數,得到
log P ( y x ) = y log y ^ + ( 1 y ) log ( 1 y ^ ) = L ( y , y ^ ) , \log P(y|x)=y\log\hat y+(1-y)\log(1-\hat y)=-L(y,\hat y), 這是單個樣本的成本函式。

至於在 M M 個樣本上的整體的損失函式,如果假設訓練例項獨立抽取或獨立同分布(IID),那麼,
P ( t r a i n i n g ) = Π i = 1 n P ( y ( i ) x ( i ) ) . P(training)=\Pi_{i=1}^nP(y^{(i)}|x^{(i)}).

所以,如果你想進行最大似然估計,那麼最大化 P ( t r a i n i n g ) P(training) 與最大化它的對數是等同的。即最大化以下式子:
log P ( t r a i n i n g ) = i = 1 n log P ( y ( i ) x ( i ) ) = i = 1 n L ( y ( i ) , y ^ ( i ) ) . \log P(training)=\sum_{i=1}^n\log P(y^{(i)}|x^{(i)})=-\sum_{i=1}^n-L(y^{(i)},\hat y^{(i)}).

統計學中有一個被稱為“極大似然估計”的原理,它選擇能夠最大化 log P ( t r a i n i n g ) \log P(training) 的引數。
對數機率迴歸要最小化的的代價函式 J ( ω , b ) = 1 N i = 1 n L ( y ( i ) , y ^ ( i ) ) J(\omega,b)=\frac 1 N\sum_{i=1}^n-L(y^{(i)},\hat y^{(i)}) 就相當於在各個樣本被獨立同分布(IID)抽取情況下概率的極大似然估計。