邏輯迴歸與梯度下降法

轉載自：http://www.cnblogs.com/yysblog/p/3268508.html

一、邏輯迴歸

1) Classification(分類)

分類問題舉例：

郵件：垃圾郵件/非垃圾郵件？
線上交易：是否欺詐（是/否）？
腫瘤：惡性/良性？

以上問題可以稱之為二分類問題，可以用如下形式定義：

二分類問題-我愛公開課-52opencourse.com

其中0稱之為負例，1稱之為正例。

對於多分類問題，可以如下定義因變數y：

y∈{0,1,2,3,...,n}

如果分類器用的是迴歸模型，並且已經訓練好了一個模型，可以設定一個閾值：

如果hθ(x)≥0.5，則預測y=1,既y屬於正例；
如果hθ(x)<0.5，則預測y=0,既y屬於負例；

如果是線性迴歸模型，對於腫瘤這個二分類問題，圖形表示如下：

線性迴歸二分類問題-我愛公開課-52opencourse.com

但是對於二分類問題來說，線性迴歸模型的Hypothesis輸出值hθ(x)可以大於1也可以小於0。

這個時候我們引出邏輯迴歸，邏輯迴歸的Hypothesis輸出介於0與1之間，既:

0≤hθ(x)≤1

注: 以下引自李航博士《統計學習方法》1.8節關於分類問題的一點描述：

分類是監督學習的一個核心問題，在監督學習中，當輸出變數Y取有限個離散值時，預測問題便成為分類問題。這時，輸入變數X可以是離散的，也可以是連續的。監督學習從資料中學習一個分類模型或分類決策函式，稱為分類器(classifier)。分類器對新的輸入進行輸出的預測(prediction)，稱為分類(classification).

2) Hypothesis Representation

邏輯迴歸模型：

上一節談到，我們需要將Hypothesis的輸出界定在0和1之間，既：

0≤hθ(x)≤1

但是線性迴歸無法做到，這裡我們引入一個函式g, 令邏輯迴歸的Hypothesis表示為：

hθ(x)=g(θTx)

這裡g稱為Sigmoid function或者Logistic function, 具體表達式為：

g(z)=11+e−z

Sigmoid 函式在有個很漂亮的“S"形，如下圖所示（引自維基百科）：

Sigmoid function-我愛公開課-52opencourse.com

綜合上述兩式，我們得到邏輯迴歸模型的數學表示式：

hθ(x)=11+e−θT

其中θ是引數。

Hypothesis輸出的直觀解釋：

hθ(x) = 對於給定的輸入x，y=1時估計的概率

例如，對於腫瘤（惡性/良性），如果輸入變數（特徵）是腫瘤的大小：

腫瘤分類例子-我愛公開課-52opencourse.com

這裡Hypothesis表示的是”病人的腫瘤有70%的可能是惡性的“。

較正式的說法可以如下表示：

給定輸入x，引數化的θ（引數空間）， y=1時的概率。

數學上可以如下表示：

hθ(x)=P(y=1|x;θ)

對於因變數y=0或1這樣的二分類問題：

P(y=0|x;θ)+P(y=1|x;θ)=1 P(y=0|x;θ)=1−P(y=1|x;θ)

3) Decision boundary(決策邊界)

如上節所述，邏輯迴歸模型可以如下表示：

邏輯迴歸模型表示式-我愛公開課-52opencourse.com

假設給定的閾值是0.5，當hθ(x)≥0.5時， y = 1;

當hθ(x)<0.5時，y = 0;

再次回顧sigmoid function的圖形，也就是g(z)的圖形：

sigomoid function g(x) -我愛公開課-52opencourse.com

當g(z)≥0.5時, z≥0;

對於hθ(x)=g(θTx)≥0.5, 則θTx≥0, 此時意味著預估y=1;

反之，當預測y = 0時，θTx<0;

我們可以認為θTx = 0是一個決策邊界，當它大於0或小於0時，邏輯迴歸模型分別預測不同的分類結果。例如，

hθ(x)=g(θ0+θ1x1+θ2x2)

θ0,θ1,θ2分別取-3, 1, 1,

則當−3+x1+x2≥0時, y = 1; 則x1+x2=3是一個決策邊界，圖形表示如下：

決策邊界-我愛公開課-52opencourse.com

上述只是一個線性的決策邊界，當hθ(x)更復雜的時候，我們可以得到非線性的決策邊界，例如：

非線性的決策邊界1-我愛公開課-52opencourse.com

這裡當x21+x22≥1時，y=1，決策邊界是一個圓形，如下圖所示：

非線性決策邊界2-我愛公開課-52opencourse.com

更復雜的例子，請參考官方PPT，這裡就不再舉例了。

4) Cost function(代價函式，成本函式)

邏輯迴歸概覽：

邏輯迴歸是一種有監督的學習方法，因此有訓練集：

訓練集-我愛公開課-52opencourse.com

對於這m個訓練樣本來說，每個樣本都包含n+1個特徵:

訓練樣本-我愛公開課-52opencourse.com

其中x∈Rn+1, x0=1,y∈{0,1}.

Hypothesis可表示為:

hθ(x)=11+e−θTx

與線性迴歸相似，我們的問題是如何選擇合適的引數θ?

Cost Function:

線性迴歸的Cost Function定義為:

J(θ)=1m∑i=1m12(hθ(x(i))−y(i))2

這裡可以把12(hθ(x(i))−y(i))2簡寫為Cost(hθ(x(i),y)，更簡化的表示式為：

Cost(hθ(x),y)=12(hθ(x)−y)2

如果和線性迴歸相似，這裡取 hθ(x)=11+e−θTx，會存在一個問題，也就是邏輯迴歸的Cost Function是“非凸”的，如下圖所示：

非凸函式-我愛公開課-52opencourse.com

我們知道，線性迴歸的Cost Function是凸函式，具有碗狀的形狀，而凸函式具有良好的性質：對於凸函式來說區域性最小值點即為全域性最小值點，因此只要能求得這類函式的一個最小值點，該點一定為全域性最小值點。

凸函式-我愛公開課-52opencouse.com

因此，上述的Cost Function對於邏輯迴歸是不可行的，我們需要其他形式的Cost Function來保證邏輯迴歸的成本函式是凸函式。

這裡補充一段李航博士《統計學習方法》裡關於Cost Function或者損失函式(loss function)的說明，大家就可以理解Cost Function不限於一種方式，而是有多種方式可選，以下摘自書中的1.3.2小節:

監督學習問題是在假設空間F中選取模型f作為決策函式，對於給定的輸入X，由f(X)給出相應的輸出Y,這個輸出的預測值f(X)與真實值Y可能一致也可能不一致，用一個損失函式(loss function)或代價函式(cost function)來度量預測錯誤的程度。損失函式是f(X)和Y的非負實值函式，記作L(Y, f(X)).

統計學習中常用的損失函式有以下幾種：

(1) 0-1損失函式(0-1 loss function):
L(Y,f(X))={1,0,Y≠f(X)Y=f(X)
(2) 平方損失函式(quadratic loss function)
L(Y,f(X))=(Y−f(X))2
(3) 絕對損失函式(absolute loss function)
L(Y,f(X))=|Y−f(X)|
(4) 對數損失函式(logarithmic loss function) 或對數似然損失函式(log-likelihood loss function)
L(Y,P(Y|X))=−logP(Y|X)
損失函式越小，模型就越好。

邏輯迴歸的Cost Function:

基於上節的描述和補充，這裡我們選擇對數似然損失函式作為邏輯迴歸的Cost Function:

邏輯迴歸之對數似然損失函式-我愛公開課-52opencourse.com

直觀的來解釋這個Cost Function，首先看當y=1的情況：

對數似然損失函式解釋1-我愛公開課-52opencouse.com

直觀來看，如果y = 1, hθ(x)=1，則Cost = 0，也就是預測的值和真實的值完全相等的時候Cost =0;

但是，當hθ(x)→0時, Cost→∞

直觀來看，由於預測的結果南轅北轍：

如果h

邏輯迴歸與梯度下降法

一、邏輯迴歸

邏輯迴歸與梯度下降法

邏輯迴歸與梯度下降

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

吳恩達深度學習deeplearning.ai-Week2課後作業-Logistic迴歸與梯度下降向量化

邏輯迴歸和梯度下降

梯度與梯度下降法

斯坦福大學機器學習筆記——多變數的線性迴歸以及梯度下降法注意事項（內有程式碼）

線性迴歸與梯度下降

最小二乘法與梯度下降法

機器學習與高數：梯度（Gradient）與梯度下降法（Gradient Descent）

第一個機器學習演算法：線性迴歸與梯度下降

機器學習(二)：理解線性迴歸與梯度下降並做簡單預測

Python梯度下降法實現二元邏輯迴歸

邏輯迴歸梯度下降法詳解

對數幾率回歸法（梯度下降法，隨機梯度下降與牛頓法）與線性判別法(LDA)

Hulu機器學習問題與解答系列 | 二十四：隨機梯度下降法

線性迴歸和梯度下降講解與程式碼

梯度下降法實現最簡單線性迴歸問題python實現

梯度下降法求多元線性迴歸及Java實現

【機器學習】基於梯度下降法的自線性迴歸模型

邏輯迴歸與梯度下降法

一、邏輯迴歸

相關推薦