梯度下降求解邏輯回歸

阿新 • • 發佈：2018-10-05

.com 三個參數所有 positive numpy 隨機梯度聚集 elif tex

目標：

我們將建立一個邏輯回歸模型來預測一個學生是否被大學錄取。假設你是一個大學系的管理員，你想根據兩次考試的結果來決定每個申請人的錄取機會。你有以前的申請人的歷史數據，你可以用它作為邏輯回歸的訓練集。對於每一個培訓例子，你有兩個考試的申請人的分數和錄取決定。為了做到這一點，我們將建立一個分類模型，根據考試成績估計入學概率。

#三大件
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

　import os
　path = ‘LogiReg_data.txt‘
pdData = pd.read_csv(path, header=None, names=[‘Exam 1‘, ‘Exam 2‘, ‘Admitted‘])
pdData.head()

　　　　　　技術分享圖片

positive = pdData[pdData[‘Admitted‘] == 1] # returns the subset of rows such Admitted = 1, i.e. the set of *positive* examples
negative = pdData[pdData[‘Admitted‘] == 0] # returns the subset of rows such Admitted = 0, i.e. the set of *negative* examples

fig, ax = plt.subplots(figsize=(10,5))
ax.scatter(positive[ 
‘Exam 1‘], positive[‘Exam 2‘], s=30, c=‘b‘, marker=‘o‘, label=‘Admitted‘)
ax.scatter(negative[‘Exam 1‘], negative[‘Exam 2‘], s=30, c=‘r‘, marker=‘x‘, label=‘Not Admitted‘)
ax.legend()  #將我們傳入的數據映射到畫圖區域中
ax.set_xlabel(‘Exam 1 Score‘)
ax.set_ylabel(‘Exam 2 Score‘)

技術分享圖片

目標：建立分類器（求解出三個參數

設定閾值，根據閾值判斷錄取結果

要完成的模塊

sigmoid : 映射到概率的函數
model : 返回預測結果值
cost : 根據參數計算損失
gradient : 計算每個參數的梯度方向
descent : 進行參數更新
accuracy: 計算精度

技術分享圖片

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

Sigmoid

def model(X, theta):
    return sigmoid(np.dot(X, theta.T))   #預測函數  輸入參數和兩門成績的特征向量返回預測結果（sigmoid)分類

技術分享圖片

#第一個參數是沒有對應相乘的特征向量的  所以我們需要增加一列為常數1的特征向量與第一個參數相乘
pdData.insert(0, ‘Ones‘, 1) # in a try / except structure so as not to return an error if the block si executed several times


# set X (training data) and y (target variable)
orig_data = pdData.as_matrix() # convert the Pandas representation of the data to an array useful for further computations(將數據轉化為數組)
cols = orig_data.shape[1]   #shape  返回的是元組 第一個參數是行 第二個是列
X = orig_data[:,0:cols-1]    #得到特征向量數據
y = orig_data[:,cols-1:cols]   #獲取分類，0表示未錄取  1表示錄取了

# convert to numpy arrays and initalize the parameter array theta
#X = np.matrix(X.values)
#y = np.matrix(data.iloc[:,3:4].values) #np.array(y.values)
theta = np.zeros([1, 3])   #隊參數進行占位操作

技術分享圖片

def cost(X, y, theta):
    left = np.multiply(-y, np.log(model(X, theta)))
    right = np.multiply(1 - y, np.log(1 - model(X, theta)))
    return np.sum(left - right) / (len(X))

#cost(X, y, theta)   ----0.69314718055994529

技術分享圖片

def gradient(X, y, theta):
    grad = np.zeros(theta.shape)
    error = (model(X, theta)- y).ravel()  #.reval()改變矩陣的維度 變成一維向量
    for j in range(len(theta.ravel())): #for each parmeter  #循環每個特征向量  對每個權重參數進行梯度求解
        term = np.multiply(error, X[:,j])  #誤差和 每行特征向量相乘 得到每個參數的梯度
        grad[0, j] = np.sum(term) / len(X)
    
    return grad   #返回每個參數的梯度下降的

　　技術分享圖片

STOP_ITER = 0
STOP_COST = 1
STOP_GRAD = 2

def stopCriterion(type, value, threshold):
    #設定三種不同的停止策略 
    if type == STOP_ITER:        return value > threshold
    elif type == STOP_COST:      return abs(value[-1]-value[-2]) < threshold
    elif type == STOP_GRAD:      return np.linalg.norm(value) < threshold

import numpy.random
#洗牌 ：可能收集的信息是按照一定的順序  為了使模型發泛化能力更強 所以我們先把信息順序打亂
def shuffleData(data):
    np.random.shuffle(data)    #洗牌
    cols = data.shape[1]   #列
    X = data[:, 0:cols-1]  #特征向量
    y = data[:, cols-1:]   #分類向量
    return X, y

import time

def descent(data, theta, batchSize, stopType, thresh, alpha):
    #梯度下降求解
    
    init_time = time.time()  #得到的是時間戳
    i = 0 # 叠代次數
    k = 0 # batch
    X, y = shuffleData(data)   #洗牌
    grad = np.zeros(theta.shape) # 計算的梯度，先給參數占位子，
    costs = [cost(X, y, theta)] # 計算平均損失值數組,每次叠代之後（梯度下降之後）新的損失值

    
    while True:
        grad = gradient(X[k:k+batchSize], y[k:k+batchSize], theta)
        k += batchSize #取batch數量個數據   批量大小
        if k >= n:   #n是叠代的次數 
            k = 0 
            X, y = shuffleData(data) #重新洗牌
        theta = theta - alpha*grad # 參數更新
        costs.append(cost(X, y, theta)) # 計算新的損失
        i += 1 

        if stopType == STOP_ITER:       value = i
        elif stopType == STOP_COST:     value = costs
        elif stopType == STOP_GRAD:     value = grad
        if stopCriterion(stopType, value, thresh): break
    
    return theta, i-1, costs, grad, time.time() - init_time

def runExpe(data, theta, batchSize, stopType, thresh, alpha):
    #import pdb; pdb.set_trace();
    theta, iter, costs, grad, dur = descent(data, theta, batchSize, stopType, thresh, alpha)  ##descent（）梯度下降求解
    name = "Original" if (data[:,1]>2).sum() > 1 else "Scaled"
    name += " data - learning rate: {} - ".format(alpha)
    if batchSize==n: strDescType = "Gradient"
    elif batchSize==1:  strDescType = "Stochastic"
    else: strDescType = "Mini-batch ({})".format(batchSize)
    name += strDescType + " descent - Stop: "
    if stopType == STOP_ITER: strStop = "{} iterations".format(thresh)
    elif stopType == STOP_COST: strStop = "costs change < {}".format(thresh)
    else: strStop = "gradient norm < {}".format(thresh)
    name += strStop
    print ("***{}\nTheta: {} - Iter: {} - Last cost: {:03.2f} - Duration: {:03.2f}s".format(
        name, theta, iter, costs[-1], dur))
    fig, ax = plt.subplots(figsize=(12,4))
    ax.plot(np.arange(len(costs)), costs, ‘r‘)
    ax.set_xlabel(‘Iterations‘)
    ax.set_ylabel(‘Cost‘)
    ax.set_title(name.upper() + ‘ - Error vs. Iteration‘)
    return theta

不同的停止策略

1.設定叠代次數

#選擇的梯度下降方法是基於所有樣本的
n=100
runExpe(orig_data, theta, n, STOP_ITER, thresh=5000, alpha=0.000001)

　　技術分享圖片

2.根據損失值停止：設定閾值 1E-6, 差不多需要110 000次叠代

runExpe(orig_data, theta, n, STOP_COST, thresh=0.000001, alpha=0.001)

技術分享圖片

3.根據梯度變化停止：設定閾值 0.05,差不多需要40 000次叠代

runExpe(orig_data, theta, n, STOP_GRAD, thresh=0.05, alpha=0.001)

　　技術分享圖片

對比不同的梯度下降方法

runExpe(orig_data, theta, 1, STOP_ITER, thresh=5000, alpha=0.001)

　　技術分享圖片

　　發現：有點爆炸。。。很不穩定,再來試試把學習率調小一些

runExpe(orig_data, theta, 1, STOP_ITER, thresh=15000, alpha=0.000002)

　　技術分享圖片

　　發現：速度快，但穩定性差，需要很小的學習率

runExpe(orig_data, theta, 16, STOP_ITER, thresh=15000, alpha=0.001)

　　技術分享圖片

　　發現：浮動仍然比較大，我們來嘗試下對數據進行標準化將數據按其屬性(按列進行)減去其均值，然後除以其方差。

　　　　　　最後得到的結果是，對每個屬性/每列來說所有數據都聚集在0附近，方差值為1

from sklearn import preprocessing as pp

scaled_data = orig_data.copy()
scaled_data[:, 1:3] = pp.scale(orig_data[:, 1:3])

runExpe(scaled_data, theta, n, STOP_ITER, thresh=5000, alpha=0.001)

　　技術分享圖片

　　發現：它好多了！原始數據，只能達到達到0.61，而我們得到了0.38個在這裏！所以對數據做預處理是非常重要的

runExpe(scaled_data, theta, n, STOP_GRAD, thresh=0.02, alpha=0.001)

　　技術分享圖片

　　發現：更多的叠代次數會使得損失下降的更多！

theta = runExpe(scaled_data, theta, 1, STOP_GRAD, thresh=0.002/5, alpha=0.001)

　　技術分享圖片

　　發現：隨機梯度下降更快，但是我們需要叠代的次數也需要更多，所以還是用batch的比較合適！！！

runExpe(scaled_data, theta, 16, STOP_GRAD, thresh=0.002*2, alpha=0.001)

　　技術分享圖片

梯度下降求解邏輯回歸

.com 三個參數所有 positive numpy 隨機梯度聚集 elif tex 目標：我們將建立一個邏輯回歸模型來預測一個學生是否被大學錄取。假設你是一個大學系的管理員，你想根據兩次考試的結果來決定每個申請人的錄取機會。你有以前的申請人的歷史數據，你可以用它作為

邏輯回歸和梯度下降簡單應用案例

error () body xlabel 所有 def app 4.6 9.4 實例：我們將建立一個邏輯回歸模型來預測一個學生是否被大學錄取。假設你是一個大學系的管理員，你想根據兩次考試的結果來決定每個申請人的錄取機會。你有以前的申請人的歷史數據，你可以用它作為邏輯回

tensorflow實現svm多分類 iris 3分類——本質上在使用梯度下降法求解線性回歸（loss是定制的而已）

points near plot asi atm lob put matplot ive # Multi-class (Nonlinear) SVM Example # # This function wll illustrate how to # implement

機器學習算法 --- 邏輯回歸及梯度下降

叠代 eight 二分計算 gif 參數 mode model 推導一、邏輯回歸簡介　　logistic回歸又稱logistic回歸分析，是一種廣義的線性回歸分析模型，常用於數據挖掘，疾病自動診斷，經濟預測等領域。　　logistic回歸是一種廣義線性回歸（gene

機器學習筆記（六）邏輯回歸

邏輯回歸 alt 表示結果不變改變最小值 nbsp 可能性一、邏輯回歸問題二分類的問題為是否的問題，由算出的分數值，經過sign函數輸出的是（+1，-1），想要輸出的結果為一個幾率值，則需要改變函數模型，其中，，則邏輯回歸的函數為二、邏輯回歸錯誤評價線性

Machine Learning — 邏輯回歸

url home mage 簡化 bsp 線性 alt 邏輯回歸 sce 現實生活中有很多分類問題，比如正常郵件/垃圾郵件，良性腫瘤/惡性腫瘤，識別手寫字等等，這些可以用邏輯回歸算法來解決。一、二分類問題所謂二分類問題，即結果只有兩類，Yes or No，這樣結果｛0，

SparkMLlib學習分類算法之邏輯回歸算法

spl sca class put net lac gradient map ica SparkMLlib學習分類算法之邏輯回歸算法（一），邏輯回歸算法的概念（參考網址：http://blog.csdn.net/sinat_33761963/article/details

邏輯回歸的正則化

正則 .com logistic 可能 cnblogs 技術技術分享 img 規範我們可以規範logistic回歸以類似的方式，我們對線性回歸。作為一個結果，我們可以避免過擬合。下面的圖像顯示了正則化函數，用粉紅色的線顯示出來，是不太可能過度擬合非正則的藍線表示功能：

統計學習方法[6]——邏輯回歸模型

算法 ima 題解問題回歸統計學習同步轉換步長統計學習方法由三個要素組成：方法=模型+策略+算法模型是針對具體的問題做的假設空間，是學習算法要求解的參數空間。例如模型可以是線性函數等。策略是學習算法學習的目標，不同的問題可以有不同的學習目標，例如經驗風險最

邏輯回歸（Logistic Regression）

方差 %d pan transpose pos mit int gre cost import numpy as np import random def genData(numPoints,bias,variance):#實例偏好方差 x = np.zer

21-城裏人套路深之用python實現邏輯回歸算法

rom 成功基礎知識壓力 dvp ilb nbsp html 感覺如果和一個人交流時，他的思想像彈幕一樣飄散在空中，將是怎樣的一種景象？我想大概會毫不猶豫的點關閉的。生活為啥不能簡單明了？因為太直白了令人乏味。保留一些不確定性反而撲朔迷離，引人入勝。我們學習了線性回歸

分類和邏輯回歸(Classification and logistic regression)，廣義線性模型(Generalized Linear Models) ，生成學習算法(Generative Learning algorithms)

line learning nbsp ear 回歸 logs http zdb del 分類和邏輯回歸(Classification and logistic regression) http://www.cnblogs.com/czdbest/p/5768467.html

梯度下降求解邏輯回歸

目標：

要完成的模塊

Sigmoid

不同的停止策略

1.設定叠代次數

2.根據損失值停止：設定閾值 1E-6, 差不多需要110 000次叠代

3.根據梯度變化停止：設定閾值 0.05,差不多需要40 000次叠代

對比不同的梯度下降方法

梯度下降求解邏輯回歸

邏輯回歸和梯度下降簡單應用案例

tensorflow實現svm多分類 iris 3分類——本質上在使用梯度下降法求解線性回歸（loss是定制的而已）

機器學習算法 --- 邏輯回歸及梯度下降

機器學習筆記（六）邏輯回歸

Machine Learning — 邏輯回歸

SparkMLlib學習分類算法之邏輯回歸算法

邏輯回歸的正則化

統計學習方法[6]——邏輯回歸模型

邏輯回歸（Logistic Regression）

21-城裏人套路深之用python實現邏輯回歸算法

分類和邏輯回歸(Classification and logistic regression)，廣義線性模型(Generalized Linear Models) ，生成學習算法(Generative Learning algorithms)

關於邏輯回歸和感知器一些基礎知識的理解

分析決策樹算法和邏輯回歸算法的不同之處

Spark 機器學習------邏輯回歸

機器學習python實戰----邏輯回歸

Spark 二項邏輯回歸__二分類

Spark 多項式邏輯回歸__多分類

Spark 多項式邏輯回歸__二分類

機器學習之邏輯回歸

梯度下降求解邏輯回歸

目標：

要完成的模塊

Sigmoid

不同的停止策略

1.設定叠代次數

2.根據損失值停止：設定閾值 1E-6, 差不多需要110 000次叠代

3.根據梯度變化停止：設定閾值 0.05,差不多需要40 000次叠代

對比不同的梯度下降方法

相關推薦