機器學習入門-邏輯迴歸演算法

阿新 • • 發佈：2019-01-12

梯度下降：對theta1， theta2， theta3 分別求最快梯度下降的方向，然後根據給定的學習率，進行theta1， theta2， theta3的引數跟新

假定目標函式 J(theta) = 1/2m * np.sum(h(theta) - y)^2 / len(X)

梯度下降的策略分為3種，

批量梯度下降：每次迭代輸入全部的資料，效果好，但耗時

隨機梯度下降：每次輸入一個樣本，時間快，迭代效果差

小批量梯度下降：每次輸入部分資料，效果好，時間適中，一般都是16， 32， 64

邏輯迴歸：是一種典型的二分類，也可以是多分類，主要在於cost的定義

邏輯迴歸的概率似然函式： h(theta)**y * (1-h(theta)) ** (1-y)

邏輯迴歸的對數似然函式 l(theta) = 1/ m * np.sum(y*logh(theta) - (1-y)*log(1-h(theta))) # 及損失函式

依據theta對損失函式進行求導，求出梯度下降的方向，用於跟新引數

grad = 1/m np.sum(h(theta) - y) * xj xj表示的是一列特徵

theta = theta - grad

接下來進行程式碼分析

需要完成的函式

主要函式
sigmoid #將數值對映為概率

model # 構造h(theta) 即 sigmoid(np.dot(X, theta.T))

cost # 計算損失值及對數似然函式 1/ m * np.sum(-y*logh(theta) - (1-y)*log(1-h(theta)))

gradient # 用於計算梯度 grad = 1/m np.sum(h(theta) - y) * xj

descent # 用於進行引數更新

runExpe # 進行畫圖操作

predict # 進行結果預測

次要函式
shuffledata # 用於進行資料清洗

StopCriter # 停止情況判斷

程式碼：

import numpy as np
import pandas as pd
import time
import matplotlib.pyplot as plt

pdData = pd.read_csv('data/LogiReg_data.txt', header=None, names=['exam1', 'exam2', 'admitted'])

# 插入一列全1的資料, 為了和theta0進行匹配
pdData.insert(0, 'ones', 1)
# 將資料轉換的為numpy形式
orig_data = pdData.as_matrix()
# 獲得列的維度
cols = orig_data.shape[1]
# 分出樣本
X = orig_data[:, :cols-1]
# 分出標籤
y = orig_data[:, cols-1:]
# 初始化theta
theta = np.zeros([1, 3])
# 定義sigmoid函式
def sigmoid(z):
    return (1 / (1 + np.exp(-z)))
# 定義H(theta)
def model(X, theta):
    return sigmoid(np.dot(X, theta.T))

# 定義損失函式即對數似然函式   1/ m * np.sum(-y*logh(theta) - (1-y)*log(1-h(theta)))
def cost(X, y, theta):
    left = np.multiply(-y, np.log(model(X, theta)))
    right = np.multiply((1-y), np.log(1-model(X, theta)))
    return np.sum(left - right) / len(X)
# 定義資料洗牌的函式
def shuffle_data(data):
    # 進行資料洗牌
    np.random.shuffle(data)
    # 分離出X和y
    cols = data.shape[1]
    X = data[:, :cols-1]
    y = data[:, cols-1:]
    return X, y

# 定義停止條件的函式
Stop_iter = 0
Stop_cost = 1
Stop_grad = 2
def StopCriter(Stop_name, value, threshold):
    # 如果迭代條件是迭代次數，返回迭代比較的結果，真或者假
    if Stop_name == Stop_iter: return value > threshold
    # 如果迭代條件是損失值，返回最後兩個損失值之差，如果低於閾值，返回為真
    elif Stop_name == Stop_cost: return value[-2] - value[-1] < threshold
    # 如果迭代條件是梯度下降的方向向量，返回的是梯度下降方向向量的模，如果低於閾值，則返回為真
    elif Stop_name == Stop_grad: return np.linalg.norm(value) < threshold

# 用於計算梯度下降方向的向量 grad = 1/m np.sum(h(theta) - y) * xj
def gradient(X, y, theta):
    # 初始化梯度值
    grad = np.zeros_like(theta)
    # 計算誤差 ravel()函式將(100, 1)轉換為(100, )
    error = (model(X, theta) - y).ravel()
    # 計算每一個方向上的梯度方向
    for j in range(X.shape[1]):
        term = np.multiply(error, X[:, j])
        grad[0, j] = np.sum(term) / len(X)
    return grad
# 在梯度方向上進行theta的引數更新
def descent(data, theta, batchsize, Stop_name, threshold, alpha):
    # 資料進行洗牌
    X, y = shuffle_data(data)
    k = 0
    # 獲得損失值函式
    costs = [cost(X, y, theta)]
    # 迭代次數
    i = 0
    # 初始時間
    init_time = time.time()
    # 迴圈
    while True:
        # 獲得batchsize的樣本
        batch_x, batch_y = X[k:k+batchsize], y[k:k+batchsize]
        # 更新k
        k = k + batchsize
        # 如果k大於樣本數，置0，重新獲得洗牌後的X和y
        if k >= X.shape[0]:
            k = 0
            X, y = shuffle_data(data)
        # 計算梯度方向
        grad = gradient(batch_x, batch_y, theta)
        # 更新引數
        theta = theta - alpha * grad
        # 重新計算損失值
        costs.append(cost(X, y, theta))
        i = i + 1
        # 根據迭代的條件獲得當前的value值
        if Stop_name == Stop_iter:value = i
        elif Stop_name == Stop_cost: value=costs
        elif Stop_name == Stop_grad: value=grad
        # 將value值輸入，與閾值進行條件比較，滿足即跳出迴圈
        if StopCriter(Stop_name, value, threshold):
            break
    # 返回
    return   data, theta, i, batchsize, Stop_name, threshold, alpha, time.time() - init_time, costs
# 進行畫圖操作
def runExpe(data, theta, batchsize, Stop_name, threshold, alpha):
    data, theta, i, batchsize, Stop_name, threshold, alpha, dur, costs = descent(data, theta, batchsize, Stop_name, threshold, alpha)
    name = "Original" if (data[:, 1] > 2).sum() > 1 else "Scaled"
    name += " data - learning rate: {} - ".format(alpha)
    if batchsize == n:
        strDescType = "Gradient"
    elif batchsize == 1:
        strDescType = "Stochastic"
    else:
        strDescType = "Mini-batch ({})".format(batchsize)
    name += strDescType + " descent - Stop: "
    if Stop_name == Stop_iter:
        strStop = "{} iterations".format(threshold)
    elif Stop_name == Stop_cost:
        strStop = "costs change < {}".format(threshold)
    else:
        strStop = "gradient norm < {}".format(threshold)
    name += strStop
    print("***{}\nTheta: {} - Iter: {} - Last cost: {:03.2f} - Duration: {:03.2f}s".format(
        name, theta, iter, costs[-1], dur))
    fig, ax = plt.subplots(figsize=(12, 4))
    ax.plot(np.arange(len(costs)), costs, 'r')
    ax.set_xlabel('Iterations')
    ax.set_ylabel('Cost')
    ax.set_title(name.upper() + ' - Error vs. Iteration')

    return theta

# 預測函式
def predict(X, theta):
    # 代入h(theta) 即model中進行樣本預測
    pre_y = model(X, theta)
    # 概率大於0.5的，輸出為1， 小於0.5的輸出為0
    pre_y[pre_y >= 0.5] = 1
    pre_y[pre_y < 0.5] = 0
    # 返回預測結果的向量
    return pre_y
# 表示樣本的總個數
n = 100
# 獲得迭代好以後的theta
theta = runExpe(orig_data, theta, 100, Stop_grad, 0.05, alpha=0.001)
# 進行資料歸一化操作
import sklearn.preprocessing as pp
scale_data = orig_data.copy()
# 對第二列和第三列資料進行歸一化操作
scale_data[:, 1:3] = pp.scale(scale_data[:, 1:3])
# 獲得預測結果的向量
pre_y = predict(X, theta)
# 將預測結果與真實結果進行比較，返回0和1的陣列，正確是1，錯誤是0
correct_array = np.array(pre_y == y, dtype=int)
# 準確率就是計算正確和錯誤的平均值
accurracy = correct_array.mean()
print(accurracy)

迭代次數與損失值cost的作圖

機器學習入門-邏輯迴歸演算法

梯度下降：對theta1， theta2， theta3 分別求最快梯度下降的方向，然後根據給定的學習率，進行theta1， theta2， theta3的引數跟新假定目標函式 J(theta) = 1/2m * np.sum(h(theta) - y)^2 / len(X) 梯度下降的策略分為3種，

從零開始機器學習003-邏輯迴歸演算法

老師的課程 1.從零開始進行機器學習 2.機器學習數學基礎(根據學生需求不斷更新) 3.機器學習Python基礎 4.最適合程式設計師的方式學習TensorFlow 問：邏輯迴歸是解決迴歸的問題嗎？答：不是，邏輯迴歸解決的是分類問題。一、邏輯迴歸概念

【吳恩達機器學習】邏輯迴歸演算法Matlab實現

一，假設函式： 1）邏輯迴歸（Logistic Regression)，Logistic function, Sigmoid function是同一個意思，函式形式（假設函式形式）如下: 邏輯迴歸是二分類演算法，hθ(x)>=0.5hθ(x)&g

機器學習入門線性迴歸及梯度下降

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【機器學習】線性迴歸演算法的過擬合比較

回顧過擬合與欠擬合主要介紹了什麼是欠擬合什麼是過擬合對抗過擬合主要介紹了線性迴歸中對抗過擬合的方法，主要包括：L1-norm的LASSO迴歸、L2-norm的Ridge迴歸，此外還有一個沒有提到，L1-norm和L2-norm結合的Elasitc Net(彈性網

機器學習之logistic迴歸演算法與程式碼實現

Logistic迴歸演算法與程式

吳恩達機器學習之邏輯迴歸理論部分

一.特徵函式對應分類問題，我們先針對二分類問題進行討論，對應計算機而言，分類即將資料按其特徵值不同分為不同的集合，僅對應二分類問題，我們只需考慮分為：正類和負類，為此我們引入特徵函式。 y=1 — 代表二分類中的正類 y=0 — 代表二分類中的反類這是特殊函式

機器學習入門(二) — 迴歸模型 (理論)

講述了迴歸模型的基本原理和演算法，並結合迴歸介紹了交叉驗證的方法 1 預測房價 1.1 通過相似的房子預測你的房子 2 線性迴歸 2.1 應用線性迴歸模型那麼哪條線才是最好的呢? 2.2 應用一條線的成本 2.3 預測你的房價 3 加入更高階的因素 3.1 用直線擬合房價或

機器學習之線性迴歸演算法(Linear Regression)(含python原始碼)

機器學習之線性迴歸演算法(Linear Regression) 線性迴歸(Linear Regression)演算法屬於有監督的迴歸(Regression)學習演算法。迴歸(Regression)演算法通過建立變數之間的迴歸模型，通過學習(訓練)過程得到變數與

一份非常全面的機器學習分類與迴歸演算法的評估指標彙總

本文是《機器學習寶典》第 3 篇，讀完本文你能夠掌握分類與迴歸演算法的評估指標。 PS：文末附有練習題讀完機器學習演算法常識之後，你已經知道了什麼是欠擬合和過擬合、偏差和方差以及貝葉斯誤差。在這篇給大家介紹一些機器學習中離線評估模型效能的一些指標。當我們訓練得到

機器學習：邏輯迴歸詳細推導

如今機器學習、深度學習可謂炙手可熱，人工智慧也確實開始影響、改變著我們的生活。正因如此，很多同學開始接觸或者學習這方面的知識。機器學習的入門是有難度的，因為它不僅要求你會編碼，還要你熟悉高等數學，比如線性代數，微積分等，除此之外，還要懂統計學。如果你想入門機器學習，那麼一定要好好學習邏輯迴歸。原因如

機器學習入門——Logistic迴歸

6 Logistic迴歸學習了線性迴歸（包括單變數和多變數），我們發現可以使用它來實現預測某個食物的發展趨勢。那麼能不能使用線性迴歸進行分類呢？單純的線性迴歸，，其假設函式一個訓練資料，對應一個假設值，這樣起不到分類的效果。但是，在這個基礎上

機器學習中【迴歸演算法】詳解

關注微信公眾號【Microstrong】,我寫過四年Android程式碼，瞭解前端、熟悉後臺，現在研究方向是機器學習、深度學習！一起來學習，一起來進步，一起來交流吧！迴歸問題：主要用於預測數值型資料，典

【機器學習】邏輯迴歸基礎知識+程式碼實現

1. 基本概念邏輯迴歸用於二分類，將對輸入的線性表示對映到0和1之間，輸出為label為1的概率。優點：實現代價低，可輸出分類概率。適用於資料線性不可分。缺點：容易欠擬合，分類精度可能不高，且僅限二分類。使用資料型別：數值型和標稱資料。邏輯迴歸本質也是線性迴歸，但是

機器學習之邏輯迴歸（logistic regression）

概述邏輯斯蒂迴歸實質是對數機率迴歸（廣義的線性迴歸），是用來解決分類問題的。其中sigmoid用來解決二分類問題，softmax解決多分類問題，sigmoid是softmax的特殊情況。數學建模直接針對分類可能性建模。引數學習可用極大似然估計

Udacity機器學習入門筆記——自選演算法隨機森林

自選三個演算法之一：隨機森林引數調整學習（Google自帶翻譯ε=(´ο｀*)))）在ud120-projects\choose_your_own\your_algorithm.py中新增以下程式碼from sklearn.ensemble import RandomFore

Spark機器學習之--邏輯迴歸

Spark 利用邏輯迴歸做申請評分卡，上乾貨 val spark=SparkSession.builder().appName("LRTest").master("local[*]").getOrCreate() val sc=spark.sparkContex

機器學習：邏輯迴歸與Python程式碼實現

前言：本篇博文主要介紹邏輯迴歸（logistic regression），首先介紹相關的基礎概念和原理，然後通過Python程式碼實現邏輯迴歸的二分類問題。特別強調，其中大多理論知識來源於《統計學習方法_李航》和斯坦福課程翻譯筆記以及Coursera機器學習課程。本篇博

機器學習之邏輯迴歸（二）

二項邏輯迴歸模型是如下的條件概率分佈：其中x∈是輸入，y∈{0，1}是輸出。為了方便，將權值向量和輸入向量進行擴充，此時w = ,x = ,迴歸模型表示如下：引數w未知，採用統計學中的極大似然估計來由樣本估計引數w。對於0-1分佈x

sklearn機器學習之邏輯迴歸分類器

物以類聚，人以群分。是非黑白，金木水火。乾坤陰陽，寒暑燥溼。 import numpy as np import matplotlib.pyplot as plt from sklearn import linear_model #訓練資

機器學習入門-邏輯迴歸演算法

相關推薦