淺談Pytorch torch.optim優化器個性化的使用

阿新 • • 發佈：2020-02-21

一、簡化前饋網路LeNet

import torch as t
 
 
class LeNet(t.nn.Module):
 def __init__(self):
  super(LeNet,self).__init__()
  self.features = t.nn.Sequential(
   t.nn.Conv2d(3,6,5),t.nn.ReLU(),t.nn.MaxPool2d(2,2),t.nn.Conv2d(6,16,2)
  )
  # 由於調整shape並不是一個class層，
  # 所以在涉及這種操作（非nn.Module操作）需要拆分為多個模型
  self.classifiter = t.nn.Sequential(
   t.nn.Linear(16*5*5,120),t.nn.Linear(120,84),t.nn.Linear(84,10)
  )
 
 def forward(self,x):
  x = self.features(x)
  x = x.view(-1,16*5*5)
  x = self.classifiter(x)
  return x
 
net = LeNet()

二、優化器基本使用方法

建立優化器例項

迴圈：

清空梯度

向前傳播

計算Loss

反向傳播

更新引數

from torch import optim
 
# 通常的step優化過程
optimizer = optim.SGD(params=net.parameters(),lr=1)
optimizer.zero_grad() # net.zero_grad()
 
input_ = t.autograd.Variable(t.randn(1,3,32,32))
output = net(input_)
output.backward(output)
 
optimizer.step()

三、網路模組引數定製

為不同的子網路引數不同的學習率，finetune常用，使分類器學習率引數更高，學習速度更快（理論上）。

1.經由構建網路時劃分好的模組進行學習率設定，

# # 直接對不同的網路模組制定不同學習率
optimizer = optim.SGD([{'params': net.features.parameters()},# 預設lr是1e-5
      {'params': net.classifiter.parameters(),'lr': 1e-2}],lr=1e-5)

2.以網路層物件為單位進行分組，並設定學習率

# # 以層為單位，為不同層指定不同的學習率
# ## 提取指定層物件
special_layers = t.nn.ModuleList([net.classifiter[0],net.classifiter[3]])
# ## 獲取指定層引數id
special_layers_params = list(map(id,special_layers.parameters()))
print(special_layers_params)
# ## 獲取非指定層的引數id
base_params = filter(lambda p: id(p) not in special_layers_params,net.parameters())
optimizer = t.optim.SGD([{'params': base_params},{'params': special_layers.parameters(),'lr': 0.01}],lr=0.001)

四、在訓練中動態的調整學習率

'''調整學習率'''
# 新建optimizer或者修改optimizer.params_groups對應的學習率
# # 新建optimizer更簡單也更推薦，optimizer十分輕量級，所以開銷很小
# # 但是新的優化器會初始化動量等狀態資訊，這對於使用動量的優化器（momentum引數的sgd）可能會造成收斂中的震盪
# ## optimizer.param_groups:長度2的list，optimizer.param_groups[0]：長度6的字典
print(optimizer.param_groups[0]['lr'])
old_lr = 0.1
optimizer = optim.SGD([{'params': net.features.parameters()},{'params': net.classifiter.parameters(),'lr': old_lr*0.1}],lr=1e-5)

可以看到optimizer.param_groups結構，[{'params','lr','momentum','dampening','weight_decay','nesterov'},{……}]，集合了優化器的各項引數。

torch.optim的靈活使用

重寫sgd優化器

import torch
from torch.optim.optimizer import Optimizer,required

class SGD(Optimizer):
 def __init__(self,params,lr=required,momentum=0,dampening=0,weight_decay1=0,weight_decay2=0,nesterov=False):
  defaults = dict(lr=lr,momentum=momentum,dampening=dampening,weight_decay1=weight_decay1,weight_decay2=weight_decay2,nesterov=nesterov)
  if nesterov and (momentum <= 0 or dampening != 0):
   raise ValueError("Nesterov momentum requires a momentum and zero dampening")
  super(SGD,self).__init__(params,defaults)

 def __setstate__(self,state):
  super(SGD,self).__setstate__(state)
  for group in self.param_groups:
   group.setdefault('nesterov',False)

 def step(self,closure=None):
  """Performs a single optimization step. Arguments: closure (callable,optional): A closure that reevaluates the model and returns the loss. """
  loss = None
  if closure is not None:
   loss = closure()

  for group in self.param_groups:
   weight_decay1 = group['weight_decay1']
   weight_decay2 = group['weight_decay2']
   momentum = group['momentum']
   dampening = group['dampening']
   nesterov = group['nesterov']

   for p in group['params']:
    if p.grad is None:
     continue
    d_p = p.grad.data
    if weight_decay1 != 0:
     d_p.add_(weight_decay1,torch.sign(p.data))
    if weight_decay2 != 0:
     d_p.add_(weight_decay2,p.data)
    if momentum != 0:
     param_state = self.state[p]
     if 'momentum_buffer' not in param_state:
      buf = param_state['momentum_buffer'] = torch.zeros_like(p.data)
      buf.mul_(momentum).add_(d_p)
     else:
      buf = param_state['momentum_buffer']
      buf.mul_(momentum).add_(1 - dampening,d_p)
     if nesterov:
      d_p = d_p.add(momentum,buf)
     else:
      d_p = buf

    p.data.add_(-group['lr'],d_p)

  return loss

以上這篇淺談Pytorch torch.optim優化器個性化的使用就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

淺談Pytorch torch.optim優化器個性化的使用

一、簡化前饋網路LeNet import torch as t class LeNet(t.nn.Module): def __init__(self): super(LeNet,self).__init__()

淺談pytorch torch.backends.cudnn設定作用

cuDNN使用非確定性演算法，並且可以使用torch.backends.cudnn.enabled = False來進行禁用

淺談pytorch中torch.max和F.softmax函式的維度解釋

在利用torch.max函式和F.Ssoftmax函式時，對應該設定什麼維度，總是有點懵，遂總結一下：

淺談pytorch卷積核大小的設定對全連線神經元的影響

3*3卷積核與2*5卷積核對神經元大小的設定 #這裡kerner_size = 2*5 class CONV_NET(torch.nn.Module): #CONV_NET類繼承nn.Module類

淺談pytorch、cuda、python的版本對齊問題

在使用深度學習模型訓練的過程中，工具的準備也算是一個良好的開端吧。熟話說完事開頭難，磨刀不誤砍柴工，先把前期的問題搞通了，能為後期節省不少精力。

淺談pytorch池化maxpool2D注意事項

注意：在搭建網路的時候用carpool2D的時候，讓高度和寬度方向不同池化時，用如下：

淺談PyTorch的可重複性問題(如何使實驗結果可復現)

由於在模型訓練的過程中存在大量的隨機操作，使得對於同一份程式碼，重複執行後得到的結果不一致。因此，為了得到可重複的實驗結果，我們需要對隨機數生成器設定一個固定的種子。

淺談Pytorch中的自動求導函式backward()所需引數的含義

正常來說backward( )函式是要傳入引數的，一直沒弄明白backward需要傳入的引數具體含義，但是沒關係，生命在與折騰，咱們來折騰一下，嘿嘿。

淺談pytorch 模型 .pt, .pth, .pkl的區別及模型儲存方式

我們經常會看到字尾名為.pt,.pth,.pkl的pytorch模型檔案，這幾種模型檔案在格式上有什麼區別嗎？

淺談pytorch中的BN層的注意事項

最近修改一個程式碼的時候，當使用網路進行推理的時候，發現每次更改測試集的batch size大小竟然會導致推理結果不同，甚至產生錯誤結果，後來發現在網路中定義了BN層，BN層在訓練過程中，會將一個Batch的中的資料轉變

淺談PyTorch中in-place operation的含義

in-place operation在pytorch中是指改變一個tensor的值的時候，不經過複製操作，而是直接在原來的記憶體上改變它的值。可以把它成為原地操作符。

淺談vue中使用編輯器vue-quill-editor踩過的坑

結合vue+element-ui+vue-quill+editor二次封裝成元件 1.圖片上傳分析原因專案中使用vue-quill-editor富文字編輯器，在編輯內容的時候，我們往往會編輯圖片，而vue-quill-editor預設的處理方式是直接將圖片轉成base

【學習筆記】Pytorch深度學習—優化器（二）

前面學習過了Pytorch中優化器optimizer的基本屬性和方法，優化器optimizer的主要功能是 “管理模型中的可學習引數，並利用引數的梯度grad以一定的策略進行更新”。本節內容分為4部分，(1)、（2）首先了解2個重要概念

【學習筆記】Pytorch深度學習—優化器（一）

前面我們學習過了損失函式，損失函式Loss是衡量模型輸出與真實標籤之間的差異的。有了損失函式Loss，通過Loss根據一定的策略來更新模型中的引數使得損失函式Loss逐步降低；這便是優化器optimizer的任務。本節優化器

淺談MySQL大表優化方案

背景阿里雲RDS FOR MySQL（MySQL5.7版本）資料庫業務表每月新增資料量超過千萬,隨著資料量持續增加,我們業務出現大表慢查詢,在業務高峰期主業務表的慢查詢需要幾十秒嚴重影響業務

淺談vant元件Picker 選擇器選單選問題

1.寫遮罩 2.定義data 3.寫事件 4.效果圖補充知識：vue使用vant編輯使用者性別我就廢話不多說了，大家還是直接看程式碼吧~

sprite的大小 unity_淺談Unity中的優化（二）Unity優化之資源優化

技術標籤：sprite的大小 unity 此文章為網上轉載收集而成，非原創文章，請尊重別人的勞動成果，讓分享成為一種美德，歡迎轉載。另外，文章在表述和程式碼方面如有不妥之處，歡迎批評指正。同時大家有更好的優化

PyTorch基礎-Adam優化器使用-06

技術標籤：Pytorch深度學習神經網路機器學習pytorchadam 當不知道使用什麼優化器的時候可以使用adam優化器

torch.optim.Adam優化器引數學習

1.引數 https://blog.csdn.net/ibelievesunshine/article/details/99624645 class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source]

淺談關於SQL優化的思路

零、為什麼要優化系統的吞吐量瓶頸往往出現在資料庫的訪問速度上隨著應用程式的執行，資料庫的中的資料會越來越多，處理時間會相應變慢

淺談Pytorch torch.optim優化器個性化的使用

相關推薦