pytorch手動實現梯度下降法，隨機梯度法--基於logistic Regression並探索Mini batch作用

簡述

基於這次凸優化的大專案作業。
下面會圍繞著通過logistic Regression來做MNIST集上的手寫數字識別~
以此來探索logistic Regression，梯度下降法，隨機梯度法，以及Mini batch的作用。

核心任務是實現梯度下降法和隨機梯度法。但是其他的準備工作也得做的較為好~

匯入的包

import os
import torch
import torch.nn as nn
import torch.utils.data as Data
import torchvision

讀取資料

EPOCH = 1  # train the training data n times, to save time, we just train 1 epoch 

BATCH_SIZE = 1
DOWNLOAD_MNIST = False
LR = 0.001

# Mnist digits dataset
if not (os.path.exists('./mnist/')) or not os.listdir('./mnist/'):
    # not mnist dir or mnist is empyt dir
    DOWNLOAD_MNIST = True

train_data = torchvision.datasets.MNIST(
    root='./mnist/',
    train=True,  # this is training data 

    transform=torchvision.transforms.ToTensor(),
    download=DOWNLOAD_MNIST,
)

# Data Loader for easy mini-batch return in training, the image batch shape will be (50, 1, 28, 28)
train_loader = Data.DataLoader(dataset=train_data, batch_size=BATCH_SIZE)  # , shuffle=True)

sigmoid函式

sigmoid函式，將資料R對映到（0,1）區間上了。

$\frac{1}{1-e^{-x}}$

softmax函式

softmax是將根據n個數值的大小來分配概率區間

$\frac{e^{x_i}}{\sum_{i}^{n}{e^{x_i}}}$

一般來說，為了避免數值越界的話，會要求減去最大值。
但是這裡我們是用logistic regression，數值都會在0，1區間中，不會太大，因此不用擔心這個問題。

cross_Entropy函式

cross_Entropy 就是交叉熵。

$-\sum{p_i log(q_i)}$
這裡，一旦我們給出了標準的label之後，我們就知道實際的p值分佈為
只有一個元素為1，其他元素為0的概率分佈了。

也就說，我們這就是

$-log(q_{label})$
也就是對應label的概率越大越好~

任務描述

$\min_{A, b}{ CE(SM( SIG(Ax+b)), label)}$

$SM$ ： softmax
$SIG$ ：sigmoid
$CE$ ：cross_Entropy
$label$ : 真實標籤

採用SDG，和DG演算法

本文采用了pytorch實現，主要是為了避免手動算梯度。pytorch有autograd的機制。

本文一直採用的是固定步長

SGD

batch = 1
（GD的alpha採用的是0.001）
最後的結果是：0.836
準確率的變化情況
A和b和最優值的距離（這裡用的是矩陣二範數）

在這裡插入圖片描述

實現SDG的部分程式碼

從logistics regression模型中獲取了

A, b = [i for i in logits.parameters()]
A.cuda()
b.cuda()

通過檢視pytorch的原始碼實現中關於優化器部分的實現，手動設定了梯度歸零的操作，不然就會是累積梯度了。

if A.grad is not None:
	A.grad.zero_()
	b.grad.zero_()

梯度下降更新梯度

A.data = A.data - alpha * A.grad.data
b.data = b.data - alpha * b.grad.data

完整程式碼

import os

import torch
import torch.nn as nn
import torch.utils.data as Data
import torchvision
import matplotlib.pyplot as plt
EPOCH = 5  # train the training data n times, to save time, we just train 1 epoch
BATCH_SIZE = 1
DOWNLOAD_MNIST = False
LR = 0.001

# Mnist digits dataset
if not (os.path.exists('./mnist/')) or not os.listdir('./mnist/'):
    # not mnist dir or mnist is empyt dir
    DOWNLOAD_MNIST = True

train_data = torchvision.datasets.MNIST(
    root='./mnist/',
    train=True,  # this is training data
    transform=torchvision.transforms.ToTensor(),
    download=DOWNLOAD_MNIST,
)

# Data Loader for easy mini-batch return in training, the image batch shape will be (50, 1, 28, 28)
train_loader = Data.DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)


class Logits(nn.Module):
    def __init__(self):
        super(Logits, self).__init__()
        self.linear = nn.Linear(28 * 28, 10)
        self.sigmoid = nn.Sigmoid()
        self.softmax = nn.Softmax(dim=1)

    def forward(self, x):
        x = self.linear(x)
        x = self.sigmoid(x)
        x = self.softmax(x)
        return x


test_data = torchvision.datasets.MNIST(root='./mnist/', train=False)
test_x = torch.unsqueeze(test_data.test_data, dim=1).type(
    torch.FloatTensor).cuda() / 255.  # shape from (2000, 28, 28) to (2000, 1, 28, 28), value in range(0,1)
test_y = test_data.test_labels

alpha = 0.001

logits = Logits().cuda()
# optimizer = torch.optim.SGD(logits.parameters(), lr=LR)  # optimize all cnn parameters
# optimizer.zero_grad()
loss_func = nn.CrossEntropyLoss()  # the target label is not one-hotted

Accurate = []
Astore = []
bstore = []
A, b = [i for i in logits.parameters()]
A.cuda()
b.cuda()
for e in range(EPOCH):
    for step, (x, b_y) in enumerate(train_loader):  # gives batch data
        b_x = x.view(-1, 28 * 28).cuda()  # reshape x to (batch, time_step, input_size)
        b_y = b_y.cuda()

        output = logits(b_x)  # logits output
        loss = loss_func(output, b_y)  # cross entropy loss
        if A.grad is not None:
            A.grad.zero_()
            b.grad.zero_()
        loss.backward()  # backpropagation, compute gradients

        A.data = A.data - alpha * A.grad.data
        b.data = b.data - alpha * b.grad.data
        if step % 1500 == 0:
            test_output = logits(test_x.view(-1, 28 * 28))
            pred_y = torch.max(test_output, 1)[1].cuda().data.squeeze()
            Accurate.append(sum(test_y.cpu().numpy() == pred_y.cpu().numpy()) / (1.0 * len(test_y.cpu().numpy())))
            print(Accurate[-1])
            Astore.append(A.detach())
            bstore.append(b.detach())
test_output = logits(test_x.view(-1, 28 * 28))
pred_y = torch.max(test_output, 1)[1].cuda().data.squeeze()

print(pred_y, 'prediction number')
print(test_y, 'real number')
Accurate.append(sum(test_y.cpu().numpy() == pred_y.cpu().numpy()) / (1.0 * len(test_y.cpu().numpy())))
print(Accurate[-1])

for i in range(len(Astore)):
    Astore[i] = (Astore[i] - Astore[-1]).norm()
    bstore[i] = (bstore[i] - bstore[-1]).norm()

plt.plot(Astore, label='A')
plt.plot(bstore, label='b')
plt.legend()
plt.show()
plt.cla()
plt.plot(Accurate)
plt.show()

GD

將BATCHSIZE設定為6000（MNIST訓練集的數目）就是全梯度下降了。

但是這裡的步長不宜過小（GD的alpha採用的是0.05）

其他關鍵的地方都是一樣的，但是因為用到了GPU計算，而且資料集也只有一個，所以先將資料集也拿出來。避免反覆的呼叫MNIST loader讀取資料，再放到GPU上，浪費時間。

此外，將EPOCH次數，設定了為5000

在GPU環境下，很快就完成了運算

在這裡插入圖片描述

import os

import matplotlib.pyplot as plt
import torch
import torch.nn as nn
import torch.utils.data as Data
import torchvision

EPOCH = 5000  # train the training data n times, to save time, we just train 1 epoch
BATCH_SIZE = 60000
DOWNLOAD_MNIST = False

# Mnist digits dataset
if not (os.path.exists('./mnist/')) or not os.listdir('./mnist/'):
    # not mnist dir or mnist is empyt dir
    DOWNLOAD_MNIST = True

train_data = torchvision.datasets.MNIST(
    root='./mnist/',
    train=True,  # this is training data
    transform=torchvision.transforms.ToTensor(),
    download=DOWNLOAD_MNIST,
)

# Data Loader for easy mini-batch return in training, the image batch shape will be (50, 1, 28, 28)
train_loader = Data.DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)


class Logits(nn.Module):
    def __init__(self):
        super(Logits, self).__init__()
        self.linear = nn.Linear(28 * 28, 10)
        self.sigmoid = nn.Sigmoid()
        self.softmax = nn.Softmax(dim=1)

    def forward(self, x):
        x = self.linear(x)
        x = self.sigmoid(x)
        x = self.softmax(x)
        return x


test_data = torchvision.datasets.MNIST(root='./mnist/', train=False)
test_x = torch.unsqueeze(test_data.test_data, dim=1).type(
    torch.FloatTensor).cuda() / 255.  # shape from (2000, 28, 28) to (2000, 1, 28, 28), value in range(0,1)
test_y = test_data.test_labels

alpha = 0.05

logits = Logits().cuda()
# optimizer = torch.optim.SGD(logits.parameters(), lr=LR)  # optimize all cnn parameters
# optimizer.zero_grad()
loss_func = nn.CrossEntropyLoss()  # the target label is not one-hotted

Accurate = []
Astore = []
bstore = []
A, b = [i for i in logits.parameters()]
A.cuda()
b.cuda()
x, b_y = [(i, j) for i, j in train_loader][0]
b_x = x.view(-1, 28 * 28).cuda()  # reshape x to (batch, time_step, input_size)
b_y = b_y.cuda()
for e in range(EPOCH):
    output = logits(b_x)  # logits output
    loss = loss_func(output, b_y)  # cross entropy loss
    if A.grad is not None:
        A.grad.zero_()
        b.grad.zero_()

    loss.backward()  # backpropagation, compute gradients

    A.data = A.data - alpha * A.grad.data
    b.data = b.data - alpha * b.grad.data

    test_output = logits(test_x.view(-1, 28 * 28))
    # print(e)
    if e % 10 == 0:
        pred_y = torch.max(test_output, 1)[1].cuda().data.squeeze()
        Accurate. 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    pytorch手動實現梯度下降法，隨機梯度法--基於logistic Regression並探索Mini batch作用
       
 
  
  
 簡述 
 基於這次凸優化的大專案作業。 下面會圍繞著通過logistic Regression來做MNIST集上的手寫數字識別~ 以此來探索logistic Regression，梯度下降法，隨機梯度法，以及Mini batch的作用。 
 核心任務是實現梯度下降法和隨機梯度法。但是其他 

  
 

    

    
    機器學習筆記（一）：梯度下降演算法，隨機梯度下降，正規方程
      
								
								            
						
                
一、符號解釋
M 訓練樣本的數量
x 輸入變數，又稱特徵
y 輸出變數，又稱目標
(x, y) 訓練樣本，對應監督學習的輸入和輸出
表示第i組的x  
表示第i組的y
h(x)表示對應演算法的函式
是 

  
 

    

    
    對數幾率回歸法（梯度下降法，隨機梯度下降與牛頓法）與線性判別法(LDA)
      3.1   初始   屬性   author   alt   closed   sta   lose   cnblogs   　　本文主要使用了對數幾率回歸法與線性判別法（ＬＤＡ）對數據集（西瓜３.０）進行分類。其中在對數幾率回歸法中，求解最優權重Ｗ時，分別使用梯度下降法，隨機梯度下降與牛頓法。
代碼如下：
 

  
 

    

    
    批量梯度下降(BGD)、隨機梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
      
							
							
							  梯度下降法作為機器學習中較常使用的優化演算法，其有著三種不同的形式：批量梯度下降（Batch Gradient Descent）、隨機梯度下降（Stochastic Gradient Descent）以及小批量梯度下降（Mini-Batch Gradient 

  
 

    

    
    隨機梯度下降法，批量梯度下降法和小批量梯度下降法以及程式碼實現
      
							
							
							前言

梯度下降法是深度學習領域用於最優化的常見方法，根據使用的batch大小，可分為隨機梯度下降法（SGD）和批量梯度下降法（BGD）和小批量梯度下降法（MBGD），這裡簡單介紹下並且提供Python程式碼演示。 
如有謬誤，請聯絡指正。轉載請註明出處。 
聯 

  
 

    

    
    批梯度下降法(Batch  Gradient Descent )，小批梯度下降 (Mini-Batch GD)，隨機梯度下降 (Stochastic GD)
      
							
							
							一、梯度下降法

　　在機器學習演算法中，對於很多監督學習模型，需要對原始的模型構建損失函式，接下來便是通過優化演算法對損失函式進行優化，以便尋找到最優的引數。在求解機器學習引數的優化演算法中，使用較多的是基於梯度下降的優化演算法(Gradient Descen 

  
 

    

    
    梯度下降法的三種形式批量梯度下降法、隨機梯度下降以及小批量梯度下降法
       
 
 梯度下降法的三種形式BGD、SGD以及MBGD 
   
 梯度下降法的三種形式BGD、SGD以及MBGD 
 閱讀目錄 
 
   1. 批量梯度下降法BGD  
   2. 隨機梯度下降法SGD  
   3. 小批量梯度下降法MBGD  
   4. 總結  
 
 在應用機器學習演 

  
 

    

    
    梯度下降法和隨機梯度下降法和小批量梯度對比
       
 
 對於梯度下降法 如果訓練樣本集特別大（假設為樣本3億：表示在美國大學3億人口，因此美國的人口普查擁有這樣數量級的資料），如果想用這些資料去擬合一個線性迴歸模型，那麼需要對著3億資料進行求和，計算量太大了，這種梯度下降也被稱為批量地圖下降法，（批量：表示每次我們都要同事考慮所有訓練樣本，我們 

  
 

    

    
    梯度、梯度下降法、隨機梯度下降法
      
                



一、梯度gradient

在標量場f中的一點處存在一個向量G，該向量方向為f在該點處變化率最大的方向，其模也等於這個最大變化率的數值，則向量G稱為標量場f的梯度。

在向量微積分中，標量場的梯度是一個向量場。

標量場中某一點上的梯度指向標量場增長最快的方向，梯度的 

  
 

    

    
    梯度下降法、隨機梯度下降法、批量梯度下降法及牛頓法、擬牛頓法、共軛梯度法
      
							
							
							

引言

李航老師在《統計學習方法》中將機器學習的三要素總結為：模型、策略和演算法。其大致含義如下：

模型：其實就是機器學習訓練的過程中所要學習的條件概率分佈或者決策函式。

策略：就是使用一種什麼樣的評價，度量模型訓練過程中的學習好壞的方法，同時根據這個方 

  
 

    

    
    梯度下降，隨機梯度下降，批量梯度下降，mini-batch 梯度下降
      
                
最近在看到一些神經網路優化的問題，
再進行模型的訓練的時候，總是希望得到一個能較好的反映實際的模型，在對模型訓練的時候其實是在學習其中的引數，
其中主要使用的損失函式來模擬我們的目標，只要使得損失函式可以達到最小或是比較小（可以滿足對問題的求解）就行

在對損失函式進行學習 

  
 

    

    
    累積梯度下降，隨機梯度下降，基於mini-batch 的隨機梯度下降
      
                
1、批量梯度下降的求解思路如下：
（1）將J( θ)對theta求偏導，得到每個 θ對應的的梯度
   
（2）由於是要最小化風險函式，所以按每個引數theta的梯度負方向，來更新每個theta

（3）從上面公式可以注意到，它得到的是一個全域性最優解，但是每迭代一步，都要 

  
 

    

    
    梯度上升演算法與隨機梯度上升演算法的實現
       
  
  
 1. 引言 
 上一篇日誌中，我們最終推匯出了計算最優係數的公式。 Logistic 迴歸數學公式推導 
  
 本文，我們就利用上一篇文章中計算出的公式來實現模型的訓練和資料的分類。 
 2. 通過 python 實現 logistic 演 

  
 

    

    
    【重磅】批量梯度下降、隨機梯度下降、小批量梯度下降
      
                梯度下降有三種

1. 批量梯度下降（Batch Gradient Descent，BGD）

2. 隨機梯度下降（Gradient Descent，SGD）

3. 小批量梯度下降（Mini-Batch Gradient Descent，MBGD）

不同點在於損失函式使用 

  
 

    

    
    三種梯度下降的方式：批量梯度下降、小批量梯度下降、隨機梯度下降
      
                在機器學習領域中，梯度下降的方式有三種，分別是：批量梯度下降法BGD、隨機梯度下降法SGD、小批量梯度下降法MBGD，並且都有不同的優缺點。下面我們以線性迴歸演算法（也可以是別的演算法，只是損失函式（目標函式）不同而已，它們的導數的不同，做法是一模一樣的）為例子來對三種梯度下 

  
 

    

    
    實現發郵件方法，隨機返回失敗成功，50個執行緒同時呼叫sendEmail傳送1000封郵件，統計傳送失敗和成功的個數
      public class Test1 {
public static void main(String[] args) {int num=1000;//1000封郵件//獲得執行緒池ExecutorService executorService=Executors.newFixedThreadPool(50) 

  
 

    

    
    單鏈表，頭插法，尾插法各種函式詳解
       
 
 
 一：LinkList.cpp檔案 
 #include <stdio.h>
#include <malloc.h>         //malloc函式 用了<stdlib.h>中的 <malloc.h>標頭檔案
typedef int ElemT 

  
 

    

    
    雜湊衝突詳解（拉鍊法，開放地址法）
      
                雜湊衝突詳解


我喜歡用問答的形式來學習，這樣可以明確許多不明朗的問題。



	什麼是雜湊衝突？
	
比如我們要去買房子，本來已經看好的房子卻被商家告知那間房子已經被其他客戶買走了。這就是生活中實實在在的衝突問題。

同樣的當資料插入到雜湊表時，不同key值產生的h(ke 

  
 

    

    
    C語言連結串列頭插法，尾插法，排序
      題目描述 
 
 火車站要組裝一列動車。每列車廂有車廂編號、座位數和座位等級。現在請你把它們組裝起來，要求按照車廂號碼升序排列，並輸出每列車廂的資訊。請使用連結串列來實現。 
 
輸入 
 
 輸入有多組。 
 每組有多行。第一行是個正整數n，表示車廂數目。接下來有n行資料，每行資料有3個值，分別是車廂編號、 

  
 

    

    
    資料結構與演算法- 五大常用演算法總結（分治法，回溯法，分治限界法，貪心演算法，動態規劃法）
       
 
 1.分治法（Recurrence and Divide-Conquer） 
        對於一個規模為n的問題，若該問題可以容易解決（比如說規模n較小）則直接解決，否則將其分解為k個規模較小的子問題，這些子問題互相獨立且與原問題形式相同，遞迴地解決這些子問