UFLDL學習筆記系列 2

阿新 • • 發佈：2018-12-18

監督學習和優化——邏輯迴歸（Logistic Regression）

問題描述

之前我們學習的是通過一個線性方程預測一個連續的值（e.g. 房屋價格）。但有時我們想要預測一個離散的值，比如一張圖片是不是貓，這屬於分類問題。而邏輯迴歸是一種簡單的分類演算法。在這裡，我們只討論二元分類問題，即 $y\in \{0,1\}$ 。

Logistic函式

給定 $x^{(i)}，y^{(i)}$ 是其標籤。若還是像線性迴歸中的描述方法： $h_\theta(x) = \mathbf{\theta}^\top x$ 來描述標籤，則顯然是不合理的，因為 $y$

y

只能是0或者1，因此修改

h_\theta(x) = g(\mathbf{\theta}^\top x) = \frac{1}{1+e^{-\mathbf{\theta}^\top x}}

其中

g(z) = \frac{1}{1+e^{-z}}

該函式被叫做logistic函式或者sigmoid函式。該函式如下圖所示

可以看到

g(z) \in (0,1)

，因此

h_\theta(x)

的取值也在該範圍內。其他取值在[0,1]之間的函式也可以替代這裡的sigmoid函式。

演算法描述

假設 $h_\theta(x)$ 表示分類為正類（y為1）的概率，則有 $P(y=1|x;\theta) = h_\theta(x)$ $P(y = 0|x;\theta) = 1-h_\theta(x)$ 上面兩式可簡寫為下面的式子： $P(y|x;\theta) = h_\theta(x)^y(1-h_\theta(x))^{1-y}$ 假設m個訓練樣本是獨立生成的，則可以寫出引數的似然函式為： $L$

(θ)=p(y⃗∣X;θ)=∏i=1mp(y(i)∣x(i);θ)=∏i=1mhθ(x(i))y(i)(1−hθ(x(i)))1−y(i)L(\theta) = p(\vec y | X;\theta)\\ = \prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)\\=\prod_{i=1}^mh_\theta(x^{(i)})^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-y^{(i)}}

L (θ) = p (y ∣ X; θ) = i = 1 \prod m p (y^{(i)} ∣ x^{(i)}; θ) = i = 1 \prod m h_{θ} (x^{(i)})^{y^{(i)}} (1 - h_{θ} (x^{(i)}))^{1 - y^{(i)}}

使用對數似然更加容易計算：

l(\theta) = \log L(\theta) \\ = \sum_{i-1}^my^{(i)}\log h(x^{(i)}) + (1-y^{(i)})\log (1-h(x^{(i)})

現在的任務轉變為最大化對數似然估計，即我們的

l(\theta)

。最大化該函式可以使用上一章介紹的梯度下降進行計算。其中梯度為：

\frac{\partial}{\partial \theta_j}l(\theta) = \sum_i(y - h_\theta(x)) x_j^{(i)}

虛擬碼如下所示: Repeat until convergence{

\theta_j :=\theta_j + \alpha\sum_{i=1}^m(y^{(i)} - h_\theta(x^{(i)}))x_j^{(i)} \ \ \ \ (for\ every\ j)

} 可以發現，這與線性規劃的迭代公式一樣，但它們不是同一個演算法，因為目標函式

h_\theta(x)

不同了。

Exercise 1B

在ex1/ex1b_logreg.m檔案中的程式碼實現的是對28*28畫素大小的0或者1的數字圖片進行分類。這裡需要我們完成的部分就是在logistic_regression.m檔案中計算目標函式 $l(\theta)$ 以及梯度 $\frac{\partial}{\partial \theta_j}l(\theta)$ 。具體程式碼如下所示：

%compute the value of f
for i=1 : m
    f = f - (y(i) * log(1 / (1 + exp(-theta' * X(:,i)))) + (1 - y(i)) * log(1 - 1 / (1 + exp(-theta' * X(:,i)))));
end

% compute the gradient
for i = 1 : size(X,1)
    for j = 1 : m
        g(i) = g(i) + X(i,j) * (1 / (1 + exp(-theta' * X(:,j))) - y(j));
    end
end

最終訓練資料以及測試資料的正確率都能達到100%，這是由於此分類任務較簡單，且資料集充足。在一般分類問題中很難達到100%的正確率。但此訓練執行耗時巨大，共計花費約100分鐘，主要在於 $\theta$ 每次迭代都需要遍歷所有的訓練資料，而我們的程式碼使用迴圈來完成，是完全序列的，使執行時間大大增長。下一節會描述如何將資料向量化，從而加快了執行速度。

UFLDL學習筆記系列 2

監督學習和優化——邏輯迴歸（Logistic Regression）

問題描述

Logistic函式

演算法描述

Exercise 1B

UFLDL學習筆記系列 2

（來換項目系列）Spring學習筆記（2）

Python時間序列LSTM預測系列學習筆記（2）-單變數

Xilinx-ZYNQ7000系列-學習筆記（2）：用XADC測外部溫度值

Keras深度學習框架學習筆記系列（2）- Keras的安裝與配置

ufldl學習筆記與編程作業：Linear Regression（線性回歸）

學習筆記（2）---Matlab 圖像處理相關函數命令大全

5.27：cocos2d-x初探學習筆記（2）--重要概念及Test樣例結構(轉)

WPF學習筆記（2）——動畫效果按鈕變長

bootstrap 學習筆記（2）---- 排版

【lua學習筆記】——2在sublime中配置Lua運行環境

[javase學習筆記]-8.2 成員變量與靜態變量的差別

Python學習筆記（2.1）函數參數練習

jQuery源碼學習筆記（2）

後盾網-CI框架實例教程-馬振宇 - 學習筆記（2）

spark 學習筆記-spark2.2.0

linux學習筆記（2）

Hadoop學習筆記系列文章導航

Halcon學習筆記（2） VS2010 + Halcon12 C#鏈接相機

Byte of Python學習筆記（2）——回文練習

UFLDL學習筆記系列 2

監督學習和優化——邏輯迴歸（Logistic Regression）

問題描述

Logistic函式

演算法描述

Exercise 1B

相關推薦