pytorch adagrad_PyTorch中的優化演算法

阿新 • • 發佈：2020-12-18

技術標籤：pytorch adagrad pytorch weight decay pytorch 每次迭代更新學習率

常見的優化演算法：梯度下降及其改進、牛頓法及其改進的理論已經做了總結，可以檢視前面的文章。Pytorch中對這些優化演算法進行了封裝，在torch.optim模組中，可以很方便地呼叫這些方法。

隨機梯度下降SGD

呼叫：

torch.optim.SGD(params, lr=required, momentum=0, dampening=0,                 weight_decay=0, nesterov=False)

引數：

params：模型引數，可迭代型別lr：學習率，必須引數，浮點型momentum：動量引數，可選引數，浮點型，預設為0dampening：抑制動量引數，可選引數，浮點型，預設為0weight_decay：權重衰減引數，可選引數，浮點型，預設為0，(都是用L2懲罰項)nesterov：Nesterov動量，可選引數，預設不支援

示例：(後面演算法的流程已知，只是選擇的方法不同)

#選擇優化器optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)#梯度清零，防止累加optimizer.zero_grad()#反向傳播loss_fn(model(input),target).backward()# 更新引數optimizer.step()

RMSprop

呼叫：

torch.optim.RMSprop(params, lr=1e-2, alpha=0.99, eps=1e-8, weight_decay=0, momentum=0, centered=False)

引數：

params：模型引數，可迭代型別lr：學習率，必須引數，浮點型alpha：平滑常數，浮點型eps：防止分母為0的引數，增加演算法穩定性weight_decay：權重衰減引數，可選引數，浮點型，預設為0momentum：動量引數，可選引數，浮點型，預設為0centered：如果是True，那麼計算中心RMSprop，梯度通過它的方差估計進行標準化

AdaDelta

呼叫：

torch.optim.adadelta(params, lr=1.0, rho=0.9, eps=1e-6, weight_decay=0)

引數

params：模型引數，可迭代型別lr：學習率，必須引數，浮點型rho：平滑常數，浮點型eps：防止分母為0的引數，增加演算法穩定性weight_decay：權重衰減引數，可選引數，浮點型，預設為0

Adam

呼叫：

torch.optim.adam(params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8,                 weight_decay=0, amsgrad=False)

引數：

params：模型引數，可迭代型別lr：學習率，必須引數，浮點型betas：兩個平滑係數，元組型別。eps：防止分母為0的引數，增加演算法穩定性weight_decay：權重衰減引數，可選引數，浮點型，預設為0amsgrad：是否是使用該演算法的amsgrad變體(論文https://openreview.net/forum?id=ryQu7f-RZ)

AdaMax

呼叫

torch.optim.adamax(params, lr=2e-3, betas=(0.9, 0.999), eps=1e-8,                 weight_decay=0)

引數

params：模型引數，可迭代型別lr：學習率，必須引數，浮點型betas：兩個平滑係數，元組型別。eps：防止分母為0的引數，增加演算法穩定性weight_decay：權重衰減引數，可選引數，浮點型，預設為0

AdaGrad

呼叫：

torch.optim.Adagrad(params, lr=1e-2, lr_decay=0, weight_decay=0, initial_accumulator_value=0, eps=1e-10)

引數：

params：模型引數，可迭代型別lr：學習率，必須引數，浮點型lr_decay：學習率衰減你數，可選引數，浮點型，預設為0weight_decay：權重衰減引數，可選引數，浮點型，預設為0initial_accumulator_value：初始化加速值，預設為0.eps：防止分母為0的引數，增加演算法穩定性

LBFGS

呼叫：

torch.optim.LBFGS(params,                 lr=1,                 max_iter=20,                 max_eval=None,                 tolerance_grad=1e-7,                 tolerance_change=1e-9,                 history_size=100,                 line_search_fn=None)

引數：

params：模型引數，可迭代型別lr：學習率，必須引數，浮點型max_iter：每個優化步驟的最大迭代次數，預設20max_eval：每次優化的最大函式估算數目tolerance_grad：一階最優性的終止容差tolerance_change：函式值或引數變化的終止容差history_size：更新歷史大小line_search_fn：從'strong_wolfe'或None中選一個，預設是None

平均隨機梯度ASGD

呼叫：

torch.optim.ASGD(params, lr=1e-2, lambd=1e-4, alpha=0.75, t0=1e6, weight_decay=0)

引數：

params：模型引數，可迭代型別lr：學習率，必須引數，浮點型lambd：衰減項，預設1e-4alpha：eta更新的指數t0：在某點開始平均weight_decay：權重衰減引數，可選引數，浮點型，預設為0

詳細過程可以看論文：https://dl.acm.org/doi/10.1137/0330046

稀疏Adam(SparseAdam)

呼叫：

torch.optim.SparseAdam(params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8)

引數：

params：模型引數，可迭代型別lr：學習率，必須引數，浮點型betas：兩個平滑係數，元組型別。eps：防止分母為0的引數，增加演算法穩定性

‍詳細看論文：https://arxiv.org/abs/1412.6980

更多演算法參看官方教程文件。

pytorch adagrad_PyTorch中的優化演算法

技術標籤：pytorch adagradpytorch weight decaypytorch 每次迭代更新學習率常見的優化演算法：梯度下降及其改進、牛頓法及其改進的理論已經做了總結，可以檢視前面的文章。Pytorch中對這些優化演算法進行了

pytorch-optimizer--優化演算法

技術標籤：深度學習深度學習函式 1.zero_grad() 將梯度清零。由於 PyTorch 不會自動清零梯度，所以在每一次更新前會進行此操作。 2. state_dict() 獲取模型當前的引數，以一個有序字典形式返回。這個有序字

深度學習中的優化問題以及常用優化演算法

在深度模型中我們通常需要設計一個模型的代價函式（或損失函式）來約束我們的訓練過程，訓練不是無目的的訓練，而是朝著最小化代價函式的方向去訓練的。本文主要討論的就是這類特定的優化問題：尋找神經網路上一組引

Redis中LFU演算法的深入分析

前言在Redis中的LRU演算法文中說到，LRU有一個缺陷，在如下情況下： ~~~~~A~~~~~A~~~~~A~~~~A~~~~~A~~~~~A~~|

關於Pytorch MaxUnpool2d中size操作方式

下圖所示為最大值的去池化操作，主要包括三個引數，kernel_size: 卷積核大小（一般為3，即3x3的卷積核）,stride:步，還有一個新的size。

pytorch::Dataloader中的迭代器和生成器應用詳解

在使用pytorch訓練模型，經常需要載入大量圖片資料，因此pytorch提供了好用的資料載入工具Dataloader。

pytorch 影象中的資料預處理和批標準化例項

目前資料預處理最常見的方法就是中心化和標準化。中心化相當於修正資料的中心位置，實現方法非常簡單，就是在每個特徵維度上減去對應的均值，最後得到 0 均值的特徵。

淺談Pytorch torch.optim優化器個性化的使用

一、簡化前饋網路LeNet import torch as t class LeNet(t.nn.Module): def __init__(self): super(LeNet,self).__init__()

python語言中有演算法嗎

瞭解演算法之前，我們先看一下什麼是演算法定義：演算法（Algorithm）是指解題方案的準確而完整的描述，是一系列解決問題的清晰指令，演算法代表著用系統的方法描述解決問題的策略機制。也就是說，能夠對一定規範的

視覺化pytorch 模型中不同BN層的running mean曲線例項

載入模型字典逐一判斷每一層，如果該層是bn 的 running mean，就取出引數並取平均作為該層的代表

Vue中diff演算法的理解

Vue中diff演算法的理解 diff演算法用來計算出Virtual DOM中改變的部分，然後針對該部分進行DOM操作，而不用重新渲染整個頁面，渲染整個DOM結構的過程中開銷是很大的，需要瀏覽器對DOM結構進行重繪與迴流，而diff演算

Java氣泡排序法-優化演算法

氣泡排序法優化簡論：每次遍歷後，進行一次反向遍歷，並且將已經確定最大值和最小值不參加遍歷。

【學習筆記】Pytorch深度學習—優化器（二）

前面學習過了Pytorch中優化器optimizer的基本屬性和方法，優化器optimizer的主要功能是 “管理模型中的可學習引數，並利用引數的梯度grad以一定的策略進行更新”。本節內容分為4部分，(1)、（2）首先了解2個重要概念

【學習筆記】Pytorch深度學習—優化器（一）

前面我們學習過了損失函式，損失函式Loss是衡量模型輸出與真實標籤之間的差異的。有了損失函式Loss，通過Loss根據一定的策略來更新模型中的引數使得損失函式Loss逐步降低；這便是優化器optimizer的任務。本節優化器

葫蘆書筆記----優化演算法

優化演算法實際上，機器學習演算法=模型表徵+模型評估+優化演算法。其中，優化演算法所做的事情就是在模型表徵空間中找到模型評估指標最好的模型。

SQLserver中優化動易網站例項

在SQL server中我們已經瞭解到了分析顧問的強大之處，利用這個程式實現了大幅度的查詢優化，並且操作簡單。那麼在實際中，又是如何完成真正的優化的呢？在現實環境中，我們利用系統監視功能聯合分析顧問來

智慧優化演算法--＞群智慧演算法--＞人工蜂群演算法(ABC演算法)

人工蜂群演算法(ABC演算法)（Artificial Bee Colony）蜂群演算法簡介人工蜂群演算法是模仿蜜蜂行為所提出的一種優化方法，是叢集體智慧思想的一個具體應用。主要特點是不需要了解問題的特殊資訊而只需要對

建神經網路模型，哪種優化演算法更好？35000次測試告訴你丨圖賓根大學出品

蕭簫發自凹非寺量子位報道 | 公眾號 QbitAI 想要優化自己的神經網路，卻不知道哪種優化器更適合自己？

Ng深度學習筆記改善深層神經網路優化演算法

優化演算法 Mini-batch 梯度下降（Mini-batch gradient descent）理解mini-batch梯度下降法（Understanding mini-batch gradient descent）

手寫數字識別[paddle框架]：4.優化演算法

手寫數字識別之優化演算法目錄手寫數字識別之優化演算法概述前提條件設定學習率對比不同學習率下模型的收斂效果學習率的主流優化演算法

pytorch adagrad_PyTorch中的優化演算法

相關推薦