Logistic迴歸之梯度上升優化演算法（二）

阿新 • • 發佈：2018-11-11

Logistic迴歸之梯度上升優化演算法（二）

有了上一篇的知識儲備，這一篇部落格我們就開始Python3實戰

1、資料準備

資料集內容比較簡單，我們可以簡單理解為第一列X，第二列Y，第三列是分類標籤。根據標籤的不同，對這些資料點進行分類。

import matplotlib.pyplot as plt
import numpy as np

'''
函式說明：載入資料
Parameters:
    None
Returns:
    dataMat - 資料列表
    labelMat - 標籤列表
'''
def loadDataSet():
    dataMat = []  # 建立資料列表
    labelMat = []  # 建立標籤列表
    fr = open('testSet.txt')  # 開啟檔案
    for line in fr.readlines():
        lineArr = line.strip().split()  # 去回車，放入列表
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])  # 新增資料
        labelMat.append(int(lineArr[2]))  # 新增標籤
    fr.close()  # 關閉檔案
    return dataMat, labelMat


'''
函式說明：繪製資料集
Parameters:
    None
Returns:
    None
'''
def plotDataSet():
    dataMat, labelMat = loadDataSet()  # 載入資料集
    dataArr = np.array(dataMat)  # 轉換成numpy的array陣列
    n = np.shape(dataMat)[0]  # 資料個數,即行數
    xcord1 = [] ; ycord1 = []  # 正樣本
    xcord2 = [] ; ycord2 = []  # 負樣本
    for i in range(n):
        if int(labelMat[i]) == 1: #1為正樣本
            xcord1.append(dataMat[i][1])
            ycord1.append(dataMat[i][2])
            # xcord1.append(dataArr[i, 1]);ycord1.append(dataArr[i, 2])
        else:                     #0為負樣本
            xcord2.append(dataMat[i][1])
            ycord2.append(dataMat[i][2])
            # xcord2.append(dataArr[i, 1]);ycord2.append(dataArr[i, 2])
    fig = plt.figure()
    ax = fig.add_subplot(111)   #新增subplot
    ax.scatter(xcord1,ycord1,s=20,c='red',marker = 's', alpha=.5,label ='1') #繪製正樣本
    ax.scatter(xcord2,ycord2,s=20,c='green',marker = 's', alpha=.5,label ='0') #繪製正樣本
    plt.title('DataSet') #繪製title
    plt.xlabel('x'); plt.ylabel('y') #繪製label
    plt.legend()
    plt.show()

if __name__ == '__main__':
    plotDataSet()

執行結果如下：

2、訓練演算法：使用梯度上升找到最佳引數

程式碼如下：

import matplotlib.pyplot as plt
import numpy as np

'''
函式說明：載入資料
Parameters:
    None
Returns:
    dataMat - 資料列表
    labelMat - 標籤列表
'''
def loadDataSet():
    dataMat = []  # 建立資料列表
    labelMat = []  # 建立標籤列表
    fr = open('testSet.txt')  # 開啟檔案
    for line in fr.readlines():
        lineArr = line.strip().split()  # 去回車，放入列表
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])  # 新增資料
        labelMat.append(int(lineArr[2]))  # 新增標籤
    fr.close()  # 關閉檔案
    return dataMat, labelMat
'''
函式說明:sigmodi函式
Paremeters:
    inX - 資料
Returns:
    sigmoid函式
'''
def sigmoid(inX):
    return 1.0/(1 + np.exp(-inX))

'''
函式說明：梯度上升演算法
Parameters:
    dataMatIn - 資料集
    classLables - 資料標籤
Returns：
    weights.getA() - 求得的權重陣列（最優引數）
'''
def gradAscent(dataMatIn, classLables):
    dataMatrix = np.mat(dataMatIn)  #轉換成numpy的mat
    # print(dataMatrix)
    labelMat =  np.mat(classLables).transpose() #轉換成numpy的mat，並進行轉置
    # print(labelMat)
    m, n =np.shape(dataMatrix)#返回dataMatrix的大小。m為行，n為列
    alpha = 0.001  #移動補償，也就是學習速率，控制更新的幅度
    maxCycles = 500 #最大迭代次數
    weights = np.ones((n,1))
    # print(weights)
    for k in range(maxCycles):
        h = sigmoid(dataMatrix *weights) #梯度上升向量公式
        # print(h)
        #權重係數計算公式
        error = labelMat - h
        weights = weights + alpha * dataMatrix.transpose()*error
    return weights.getA()  #將矩陣轉換為陣列，返回權重陣列



if __name__ == '__main__':
    np.set_printoptions(suppress=True)
    dataMat,labelMat = loadDataSet()
    print(gradAscent(dataMat,labelMat))

其中在gradAscent()函式中的迴圈裡有一個訓練引數的計算公式，這邊我不做推導直接給出。推導網址

執行結果如圖所示：

到此我們已經求解出迴歸係數[w0,w1,w2]。通過求解出的引數，我們可以確定不同類別資料之間的分隔線，畫出決策邊界。

3、繪製決策邊界

程式碼如下：

import matplotlib.pyplot as plt
import numpy as np

'''
函式說明：載入資料
Parameters:
    None
Returns:
    dataMat - 資料列表
    labelMat - 標籤列表
'''
def loadDataSet():
    dataMat = []  # 建立資料列表
    labelMat = []  # 建立標籤列表
    fr = open('testSet.txt')  # 開啟檔案
    for line in fr.readlines():
        lineArr = line.strip().split()  # 去回車，放入列表
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])  # 新增資料
        labelMat.append(int(lineArr[2]))  # 新增標籤
    fr.close()  # 關閉檔案
    return dataMat, labelMat


'''
函式說明：繪製資料集
Parameters:
    None
Returns:
    None
'''
def plotDataSet(weights):
    dataMat, labelMat = loadDataSet()  # 載入資料集
    dataArr = np.array(dataMat)  # 轉換成numpy的array陣列
    n = np.shape(dataMat)[0]  # 資料個數,即行數
    xcord1 = [] ; ycord1 = []  # 正樣本
    xcord2 = [] ; ycord2 = []  # 負樣本
    for i in range(n):
        if int(labelMat[i]) == 1: #1為正樣本
            xcord1.append(dataMat[i][1])
            ycord1.append(dataMat[i][2])
            # xcord1.append(dataArr[i, 1]);ycord1.append(dataArr[i, 2])
        else:                     #0為負樣本
            xcord2.append(dataMat[i][1])
            ycord2.append(dataMat[i][2])
            # xcord2.append(dataArr[i, 1]);ycord2.append(dataArr[i, 2])
    fig = plt.figure()
    ax = fig.add_subplot(111)   #新增subplot
    ax.scatter(xcord1,ycord1,s=20,c='red',marker = 's', alpha=.5,label ='1') #繪製正樣本
    ax.scatter(xcord2,ycord2,s=20,c='green',marker = 's', alpha=.5,label ='0') #繪製正樣本
    x = np.arange(-3.0,3.0,0.1)
    y = (-weights[0] - weights[1] * x) / weights[2]
    ax.plot(x,y)
    plt.title('DataSet') #繪製title
    plt.xlabel('x'); plt.ylabel('y') #繪製label
    plt.legend()
    plt.show()


'''
函式說明:sigmodi函式
Paremeters:
    inX - 資料
Returns:
    sigmoid函式
'''
def sigmoid(inX):
    return 1.0/(1 + np.exp(-inX))

'''
函式說明：梯度上升演算法
Parameters:
    dataMatIn - 資料集
    classLables - 資料標籤
Returns：
    weights.getA() - 求得的權重陣列（最優引數）
'''
def gradAscent(dataMatIn, classLables):
    dataMatrix = np.mat(dataMatIn)  #轉換成numpy的mat
    # print(dataMatrix)
    labelMat =  np.mat(classLables).transpose() #轉換成numpy的mat，並進行轉置
    # print(labelMat)
    m, n =np.shape(dataMatrix)#返回dataMatrix的大小。m為行，n為列
    alpha = 0.001  #移動補償，也就是學習速率，控制更新的幅度
    maxCycles = 500 #最大迭代次數
    weights = np.ones((n,1))
    # print(weights)
    for k in range(maxCycles):
        h = sigmoid(dataMatrix *weights) #梯度上升向量公式
        # print(h)
        error = labelMat - h
        weights = weights + alpha * dataMatrix.transpose()*error
    return weights.getA()  #將矩陣轉換為陣列，返回權重陣列



if __name__ == '__main__':
    np.set_printoptions(suppress=True)
    dataMat,labelMat = loadDataSet()
    weights = gradAscent(dataMat,labelMat)
    plotDataSet(weights)

其中繪製的分隔線設定了sigmoid函式為0，回憶上一篇內容，0是兩個分類的分解出，因此我們設定 $\large 0 = w_{0}x_{0}+w_{1}x_{1}+w_{2}x_{2}$ ，然後接觸X2和X1的關係式（及分割線的方程，注意X0=1）。

執行結果如下：

從分類結果可以看出，還有幾個點是錯的。但是這個方法徐良大量的計算(300次乘法)，在下一篇文章會對演算法稍作改進。

4、總結

Logistic迴歸的一般過程：

收集資料：採用任一方法收集資料
準備資料：需要距離計算，因此要求資料型別為數值型
分析資料：採用任意方法對資料進行分析
訓練演算法：大部分時間用於訓練，為了找到最佳的分類迴歸洗漱
測試演算法：訓練步驟完成，分類將會很快。

參考文獻：

《機器學習實戰》第五章內容
Jack Cui部落格：http://cuijiahua.com/blog/2017/11/ml_6_logistic_1.html

Logistic迴歸之梯度上升優化演算法（二）

Logistic迴歸之梯度上升優化演算法（二）有了上一篇的知識儲備，這一篇部落格我們就開始Python3實戰 1、資料準備資料集：資料集下載資料集內容比較簡單，我們可以簡單理解為第一列X，第二列Y，第三列是分類標籤。根據標籤的不同，對這些資料點進行分類。

Logistic迴歸之梯度上升優化演算法（一）

Logistic迴歸之梯度上升優化演算法一、Logistic迴歸首先我們需要了解什麼是Logistic迴歸。Logistic迴歸是一種分類演算法，一般用於二分類問題，例如預測明天是否下雨，當然也可以用於多分類問題。本文主要是討論二分類問題。二分類問題即輸出結果一般只有兩個情況，我們可以理

Logistic迴歸之梯度上升優化演算法（四）

Logistic迴歸之梯度上升優化演算法（四）從疝氣病症狀預測病馬的死亡率 1、實戰背景我們使用Logistic迴歸來預測患疝氣病的馬的存活問題。原始資料集點選這裡下載。資料中一個包含了368個樣本和28個特徵。這種病不一定源自馬的腸胃問題，其他問題也可能引發疝氣病。該資料集中包含了

Logistic迴歸之梯度上升優化演算法（三）

Logistic迴歸之梯度上升優化演算法（三） 1、改進的隨機梯度上升演算法前面兩節講了Logistic迴歸以及裡面常用的梯度上升優化演算法來找到最佳迴歸係數。但是梯度上升優化演算法的計算量很大，每次更新迴歸係數時都需要遍歷整個資料集。下面給出之前所講的梯度上升演算法： def gra

多執行緒之原子變數CAS演算法（二）

上篇博文，我們介紹了多執行緒之記憶體可見性Volatile（一），但是也遺留了一個問題，如何保證變數的”原子性操作（Atomic operations）”？ Volatile保證部分型別的原子性上篇博文，我們說Voloatile不能保證原子性，有一點侷

速度之王 — LZ4壓縮演算法（二）

LZ4 (Extremely Fast Compression algorithm) 作者：Yann Collet 本文作者：zhangskd @ csdn blog LZ4格式 The compressed block is composed of sequence

Java 內功修煉之資料結構與演算法（二）

一、二叉樹補充、多叉樹 1、二叉樹（非遞迴實現遍歷）（1）前提　　前面一篇介紹了二叉樹、順序二叉樹、線索二叉樹、哈夫曼樹等樹結構。　　可參考：https://www.cnblogs.com/l-y-h/p/13751459.html#_label5_1 （2）二叉樹遍歷【遞迴與非遞迴實現：】

機器學習之logistic迴歸的梯度上升演算法

#coding=utf-8#logistic迴歸的梯度上升法from numpy import *import matplotlib.pyplot as plt#載入資料集def loadDataSet(): dataMat = []; labelMat = [] fr = open(

Logistic迴歸和梯度上升演算法

一. Logistic迴歸原理 Logistic迴歸是一種廣義線性迴歸，常用的分類器函式是Sigmoid函式，其公式如下： σ(z)=11+e−z 其中，z可由下面公式得出： z=w0x0+w1x1+w2x2+⋅⋅⋅+wnxn 如果採用向量的寫法，上面

R+python︱XGBoost極端梯度上升以及forecastxgb（預測）+xgboost（迴歸）雙案例解讀

XGBoost不僅僅可以用來做分類還可以做時間序列方面的預測，而且已經有人做的很好，可以見最後的案例。應用一：XGBoost用來做預測 ———————————————————————————————————————

通俗地說邏輯迴歸【Logistic regression】演算法（二）sklearn邏輯迴歸實戰

前情提要：通俗地說邏輯迴歸【Logistic regression】演算法（一）邏輯迴歸模型原理介紹上一篇主要介紹了邏輯迴歸中，相對理論化的知識，這次主要是對上篇做一點點補充，以及介紹sklearn 邏輯迴歸模型的引數，以及具體的實戰程式碼。 1.邏輯迴歸的二分類和多分類上次介紹的邏輯迴歸的內容，基本

演算法（二）之排序

排序演算法很多，常用的排序演算法有：氣泡排序、插入排序、選擇排序、歸併排序、快速排序、計數排序、基數排序、桶排序。接下來一一介紹幾種排序的時間複雜度及優缺點。插入排序與氣泡排序的時間複雜度相同O(n^2)，開發中我們更傾向插入排序，而不是氣泡排序排序演算法執行效率： 1.最好、最壞、平均情況時間

深入理解線性迴歸演算法（二）：正則項的詳細分析

前言當模型的複雜度達到一定程度時，則模型處於過擬合狀態，類似這種意思相信大家看到個很多次了，本文首先討論了怎麼去理解複雜度這一概念，然後回顧貝葉斯思想（原諒我有點囉嗦），並從貝葉斯的角度去理解正則項的含義以及正則項降低模型複雜度的方法，最後總結全文。 &nb

cocoscreator之KUOKUO分享碰撞演算法（2）

很多簡單的2D小遊戲只需要監聽碰撞即可，那就不用新增物理元件什麼的，直接函式搞定。 cc.Class({ extends: cc.Component, properties: { one:cc.Node, two:cc.Node, },

資料結構與演算法（二）-線性表之單鏈表順序儲存和鏈式儲存

前言：前面已經介紹過資料結構和演算法的基本概念，下面就開始總結一下資料結構中邏輯結構下的分支——線性結構線性表一、簡介 1、線性表定義　　線性表（List）：由零個或多個數據元素組成的有限序列；　　這裡有需要注意的幾個關鍵地方：　　　　1.首先他是一個序列，也就是說元素之間是有個先來後到的。

改善深層神經網路——優化演算法（6）

目錄 1.Mini-batch gradient descent 前我們介紹的神經網路訓練過程是對所有m個樣本，稱為batch，通過向量化計算方式，同時進行的。如果m很大，例如達到百萬數量級，訓練速度往往會很慢，因為每次迭代都要對所

【JAVA面試】JAVA常考點之資料結構與演算法（1）

JAVA常考點之資料結構與演算法（1） JAVA常考點之資料結構與演算法目錄

機器學習之K-近鄰演算法（二）

本章內容： K-近鄰分類演算法從文字檔案中解析和匯入資料使用matplotlib建立擴散圖歸一化數值 2-1 K-近鄰演算法概述簡單的說，K-近鄰演算法採用測量不同特徵值之間的距離方法進行分類。 K-近鄰演算法優點：精度高、對異常

粒子群優化演算法（PSO）簡介及MATLAB實現

目錄粒子群優化演算法概述 • 粒子群優化(PSO, particle swarm optimization)演算法是計算智慧領域，除了蟻群演算法，魚群演算法之外的一種群體智慧的優化演算法，該演算法最早由Kennedy和Eberhart在1995年提出的，

matlab學習筆記（1）——粒子群優化演算法（PSO）的程式實現

本文內容參考matlab R2016a完全自學一本通。粒子群優化演算法（PSO）屬於進化演算法的一種，它從隨機解出發，通過迭代找到最優解。該演算法通過適應度來評價解的品質，並通過追隨當前搜尋到的最優值來尋找全域性最優。假設在一個D維的目標搜尋空間

Logistic迴歸之梯度上升優化演算法（二）

Logistic迴歸之梯度上升優化演算法（二）

1、資料準備

2、訓練演算法：使用梯度上升找到最佳引數

3、繪製決策邊界

4、總結

相關推薦