機器學習筆記（三）——Logistic Regression 的原理以及程式碼實現

阿新 • • 發佈：2019-01-15

假設現在有一些資料點，我們用一條直線對這些點進行擬合（該線稱為最佳擬合直線），這個擬合過程就稱作迴歸。利用Logistic 迴歸進行分類的主要思想是：根據現有資料對分類邊界線建立迴歸公式，以此進行分類。這裡的“ 迴歸“一詞源於最佳擬合，表示要找到最佳擬合引數集，其背後的數學分析將在下面介紹。訓練分類器的做法就是尋找最佳擬合引數，使用的是梯度下降法，本文首先闡述Logistic 迴歸的定義，然後推導迴歸係數的迭代公式，最後給出一個Logistic 迴歸的例項，使用python 3.6編寫程式碼，根據腫瘤的形狀資料來預測腫瘤的良惡性。

一、Sigmoid函式的介紹

Logistic Regression是線性迴歸，但最終是用作分類器：它從樣本集中學習擬合引數，將目標值擬合到[0,1]之間，然後對目標值進行離散化，實現分類。

為什麼叫Logistic呢？因為它使用了Logisitic函式（又稱為Sigmoid函式），這個Sigmoid函式將分類任務的真實標記和線性迴歸模型的預測值聯絡起來。Sigmoid函式具體的計算公式如下：

首先我們來看一下Sigmoid函式在不同座標尺度下的兩條曲線圖，下面是繪製曲線圖的python程式碼：

import numpy as np
import matplotlib.pyplot as plt

def sigmoid( inx ):
    """
    這是sigmoid函式
    """
    return 1.0/(1+np.exp(-inx))

x_value = np.linspace(-6,6,20)
y_value = sigmoid( x_value )
xx_value = np.linspace(-60,60,120)
yy_value = sigmoid( xx_value )
  #numpy模組中的linspace()函式與arange()函式非常相似。它的前兩個引數同樣是用來指定序列的起始和結尾，
  #但是第三個引數不再表示相鄰兩個數字之間的距離，而是用來指定我們想把由開頭和結尾兩個數字所指定的範圍分成幾個部分。
fig = plt.figure()
ax1 = fig.add_subplot(211)
ax1.plot( x_value,y_value )
ax1.set_xlabel('x')
ax1.set_ylabel('sigmoid(x)')
ax2 = fig.add_subplot(212)
ax2.plot( xx_value,yy_value )
ax2.set_xlabel('x')
ax2.set_ylabel('sigmoid(x)')
plt.show()

得到兩種座標尺度下的Sigmoid函式圖，如下所示，其中上圖的橫座標為-6到6，這時的曲線變化較為平滑；下圖橫座標的尺度足夠大，可以看到，在x=0點處Sigmoid函式看起來很像單位階躍函式。而這種類似於階躍函式的效果正是我們想要的，考慮二分類任務，其輸出標記為0和1，而Sigmoid函式將z值轉化為一個接近0或1的y值，並且其輸出值在z = 0附近變化很陡。

Sigmoid函式的輸入記為z，暫且又下面公式表出：

其中表示示例在屬性上面的取值。因此，為了實現Logistic迴歸分類器，我們可以在每個特徵上都乘以一個迴歸係數，然後把所有的結果值相加，將這個總和代入Sigmoid函式中，進而得到一個範圍在0~1之間的數值。任何大於0.5的資料被分入1類，小於0.5即被歸入0類。所以，Logistic迴歸也可以被看成是一種概率估計。

為了使得分類器儘可能地精確，我們需要找到最佳引數（係數），然而，為了找到最佳引數（係數），需要用到最優化理論的一些知識。

二、線性迴歸的基礎

給定包含個示例的資料集，其中，其中是在第1個屬性上的取值（括號中的‘;’表示這是一個列向量，‘，’表示這是行向量，下同），。”線性迴歸“試圖學得一個線性模型以儘可能準確地預測實值輸出標記。

線性模型試圖學得一個通過屬性的線性組合來進行預測的函式，即

一般用向量形式寫出

其中

。

為了便於討論，我們把和吸收入向量形式，變成的形式。因此，我們重新得到

其中

如何確定和呢？顯然關鍵在於如何衡量和之間的差別。均方誤差（亦稱為平方損失）是迴歸任務中最常用的效能度量，因為它求導方便，做梯度優化的時候計算便捷。誤差形式如下

顯然此公式是二次方程，有最小值，當它取最小值得時候，所對應的就是最佳擬合引數。求解使最小化的過程，稱為線性迴歸模型的最小二乘”引數估計“。

三、梯度下降法求解優化問題

梯度下降法基於的思想是；要找到某函式的最小值，最好的方式就是沿著該函式的梯度方向的反方向搜尋。

其步驟是，先隨機給賦值，然後沿著公式一階偏導的反方向計算下降量值，多次重複，最終會讓公式收斂到一個極小值。用向量來表示的話，梯度下降法的迭代公式如下：

其中，是步長，即每次迭代的移動量的大小。

由於涉及到矩陣的計算，比單變數情形要複雜一些，下面我們做一個簡單的討論：

我們先來求解，推導過程如下：

前面我們為了便於討論，已經把和吸收入一個向量當中，相應的，把資料集表示為一個大小的矩陣，其中每行對應於一個示例，該行後個元素對應於示例的個屬性值，第一個元素恆置為1，即

再把標記也寫出向量形式，因此上面推導過程最後一步可以寫為

同理，可以表示為

所以，誤差的一階偏導可以寫成

綜上所述，我們把寫成矩陣的形式，如下所示

結合以及轉置矩陣的運算規律和，得到以梯度下降法計算最優的迭代公式為：

四、Logistic Regression的程式碼實現

上一節我們用梯度下降法推匯出的迭代公式，現在我們結合例項來實現邏輯迴歸。本節將使用Logistic Regression來預測腫瘤的良惡性問題。這裡的資料包含699個樣本資料，我們把樣本資料分為訓練集（524個樣本）和測試集（175個樣本），並以csv的格式存在兩個不同的檔案中，如下所示：

部分資料如下所示：

接下來我們編寫兩個載入資料集的函式，一個用來載入訓練集，另一個用來載入測試集，程式碼如下所示：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['simHei']
#這句話用來設定 matplotlib.pyplot模組繪製的圖中正常顯示中文字型
plt.rcParams['axes.unicode_minus']=False
#這句話用來設定 matplotlib.pyplot模組繪製的圖中正常顯示負號

###################################
#####   theme:邏輯迴歸實戰    #####
####     author：行歌      #######
####    time：2018.3.11    ######
################################

def loadTrainDataSet(file_name):
    """
    此函式用來向csv格式的檔案中載入訓練資料，並以陣列的形式輸出訓練集和類別標籤。
    輸入： file_name1是訓練集所在的相對地址
    輸出： trainDateArr是訓練資料集（524*3的陣列形式）
          trainLabelArr是訓練集的類別標籤（1*524的陣列形式）
    """
    trainData = pd.read_csv(file_name)
    trainDate_1 = trainData[['Clump Thickness','Cell Size']].values
    trainLabelArr = trainData[['Type']].values.ravel()
    bias_item_train =  np.mat([1.0]*trainDate_1.shape[0]).T
    trainDateArr = np.hstack((bias_item_train,trainDate_1)).A
    return trainDateArr, trainLabelArr


def loadtestDataSet(file_name):
    """
    此函式用來向csv格式的檔案中載入測試資料，並以陣列的形式輸出測試集和類別標籤。
    輸入： file_name1是測試集所在的相對地址
    輸出： testDateArr是測試資料集（175*2的陣列形式）
          testLabelArr是測試集的類別標籤（1*175的陣列形式）
    """
    testData = pd.read_csv(file_name)
    testDateArr_1 = testData[['Clump Thickness','Cell Size']].values
    testLabelArr = testData[['Type']].values.ravel()
    bias_item_test = np.mat([1.0] * testDateArr_1.shape[0]).T
    testDateArr = np.hstack(( bias_item_test,testDateArr_1)).A
    return testDateArr, testLabelArr

載入完資料我們列印一下訓練集和類別標籤，如下所示：

訓練集陣列的第一列全為1.0，它們對應線性迴歸方程中的偏置項，前面我們講過。

接下我們編寫函式來根據輸入的訓練集來計算迴歸係數，程式碼如下：

def sigmoid( inx ):
    """
    這是sigmoid函式
    """
    return 1.0/(1+np.exp(-inx))


def calculate_regression_coefficient( DateArr, LabelArr ):
    """
    此函式用來計算線性迴歸中的迴歸係數
    輸入： DateArr是陣列形式的樣本集
          LabelArr是樣本集對應的類別標籤 
    輸出: weight_vector是迴歸係數向量
    """
    m, n = DateArr.shape
    LabelArr =  LabelArr.reshape(m,1)
    alpha = 0.001
    max_iterations = 500
    weight_vector = np.ones((n,1))
    for i in range( max_iterations ):
        h = sigmoid( np.dot(DateArr, weight_vector) )
        error = ( LabelArr - h )
        weight_vector = weight_vector + alpha *  np.dot(DateArr.T, error)
    return weight_vector

將訓練集代入其中，可以得到迴歸係數如下所示：

現在我們已經得到迴歸係數，也就意味著我們得到邏輯迴歸模型了，於是，我們編寫函式預測測試集樣本的類別，並與真實類別相比較，計算出錯誤率或者正確率，同時將測試集樣本在散點圖中展出，根據迴歸係數，畫出不同類別資料之間的分隔線。程式碼如下所示：

def classifyVector(inx,weight_vector ):
    """
    此函式以迴歸係數和特徵向量作為輸入來計算對應的Sigmoid值。如果Sigmoid值大於0.5，則函式返回1，否則返回0
    """
    prob = sigmoid( np.sum(inx * weight_vector))
    if prob > 0.5:
        return 1.0
    else:
        return 0.0


def calculata_errorRate( testDateArr, testLabelArr, weight_vector ):
    """
    這個函式根據測試集的樣本，計算分類錯誤率 
    """
    prob_Arr = sigmoid(np.dot( testDateArr,weight_vector ))
    label_result = np.zeros((prob_Arr.shape[0],1))
    label_result[np.nonzero(prob_Arr > 0.5)[0]] = 1.0
    total_error = 0.0
    for i in range(len(label_result)):
        if label_result[i] != testLabelArr[i]:
            total_error += 1
    errorRate = total_error/ len(label_result)
    return  errorRate


def draw_testDate_scatterGraph(testDateArr, testLabelArr,weight_vector):
    """
    此函式首先將測試資料集按照類別劃分為正類和負類兩個資料集，然後以散點圖的形式將它們展現出來。
    輸入： testDateArr 測試資料集（175*2的陣列形式）
           testLabelArr 測試資料集對應的類別標籤（1*175的陣列形式）
    輸出： 散點圖
    """
    positive_index = np.nonzero( testLabelArr ==1 )
    testDateArr_positive = testDateArr[positive_index]
    negative_index = np.nonzero( testLabelArr == 0 )
    testDateArr_negative = testDateArr[negative_index]
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(testDateArr_positive[:,1], testDateArr_positive[:,2], marker='x', c='red')
    ax.scatter(testDateArr_negative[:, 1], testDateArr_negative[:, 2], marker='o', c='black')
    ax.plot(np.arange(0,10),(-np.arange(0,10)*weight_vector[1]-weight_vector[0])/weight_vector[2])
    plt.xlabel('Clump Thickness', fontsize=10)
    plt.ylabel('Cell Size', fontsize=10)
    plt.show()

接下來，我們編寫主函式：

if __name__ == '__main__':
    trainDateArr, trainLabelArr = loadTrainDataSet('breast-cancer-train.csv')
    testDateArr, testLabelArr = loadtestDataSet('breast-cancer-test.csv')
    weight_vector = calculate_regression_coefficient( trainDateArr, trainLabelArr )
    draw_testDate_scatterGraph(testDateArr,testLabelArr,weight_vector)
    errorRate = calculata_errorRate( testDateArr, testLabelArr, weight_vector )
    print('錯誤率：%f' % errorRate)
    print('正確率：%f' % (1-errorRate))

通過執行，我們得到結果如下：

正確率93%，這已經很不錯啦！

至此，我們的 Logistic Regression就學習完畢啦！

參考文獻：

[1] 周志華《機器學習》

[2] Peter Harrington 《機器學習實戰》

機器學習筆記（三）——Logistic Regression 的原理以及程式碼實現

一、Sigmoid函式的介紹

二、線性迴歸的基礎

三、梯度下降法求解優化問題

四、Logistic Regression的程式碼實現

機器學習筆記（三）——Logistic Regression 的原理以及程式碼實現

機器學習筆記（三）Logistic迴歸模型

機器學習筆記（四）Logistic迴歸實現及正則化

機器學習筆記（三）：線性迴歸大解剖（原理部分）

機器學習筆記（三）：線性迴歸大解剖（程式碼部分）

機器學習筆記（三）第三章線性模型

機器學習筆記（三）：決策樹

機器學習筆記（四）Logistic迴歸

機器學習筆記（三）——正則化最小二乘法

機器學習筆記（4）Logistic回歸

Mybatis 學習筆記（三）——使用Mapper代理的方式實現資料增刪改查

SQLite學習筆記（十）-- 事務基本概念和程式碼實現（C++實現）

CS229機器學習個人筆記（3）——Logistic Regression+Regularization

斯坦福Andrew Ng---機器學習筆記（二）：Logistic Regression(邏輯迴歸)

《自己動手寫java虛擬機器》學習筆記（三）-----搜尋class檔案（go）

機器學習（西瓜書）學習筆記（三）---------決策樹

python3.5《機器學習實戰》學習筆記（三）：k近鄰演算法scikit-learn實戰手寫體識別

Python3《機器學習實戰》學習筆記（三）：決策樹實戰篇之為自己配個隱形眼鏡

google機器學習框架tensorflow學習筆記（三）

機器學習（周志華版）學習筆記（三）歸納偏好

機器學習筆記（三）——Logistic Regression 的原理以及程式碼實現

一、Sigmoid函式的介紹

二、線性迴歸的基礎

三、梯度下降法求解優化問題

四、Logistic Regression的程式碼實現

相關推薦