torch.nn.utils.clip_grad_norm_()

阿新 • • 發佈：2021-12-11

torch.nn.utils.clip_grad_norm_()；梯度裁剪；梯度截斷

用法

引數列表

parameters 一個由張量或單個張量組成的可迭代物件（模型引數）
max_norm 梯度的最大範數
nort_type 所使用的範數型別。預設為L2範數，可以是無窮大範數inf

設parameters裡所有引數的梯度的範數為total_norm，
若max_norm>total_norm，parameters裡面的引數的梯度不做改變;
若max_norm<total_norm，parameters裡面的引數的梯度都要乘以一個係數clip_coef

官方程式碼

def clip_grad_norm_(parameters, max_norm, norm_type=2):
    r"""Clips gradient norm of an iterable of parameters.
    The norm is computed over all gradients together, as if they were
    concatenated into a single vector. Gradients are modified in-place.
    Arguments:
        parameters (Iterable[Tensor] or Tensor): an iterable of Tensors or a
            single Tensor that will have gradients normalized
        max_norm (float or int): max norm of the gradients
        norm_type (float or int): type of the used p-norm. Can be ``'inf'`` for
            infinity norm.
    Returns:
        Total norm of the parameters (viewed as a single vector).
    """
    if isinstance(parameters, torch.Tensor):
        parameters = [parameters]
    #第一步
    parameters = list(filter(lambda p: p.grad is not None, parameters))
    max_norm = float(max_norm)
    norm_type = float(norm_type)
    if norm_type == inf:
        total_norm = max(p.grad.data.abs().max() for p in parameters)
    else:
        total_norm = 0
        for p in parameters:
        	#第二步
            param_norm = p.grad.data.norm(norm_type)
            #第三步
            total_norm += param_norm.item() ** norm_type
        total_norm = total_norm ** (1. / norm_type)
    clip_coef = max_norm / (total_norm + 1e-6)
    if clip_coef < 1:
        for p in parameters:
            p.grad.data.mul_(clip_coef)
    return total_norm

意義

這個函式的主要目的是對parameters裡的所有引數的梯度進行規範化
梯度裁剪解決的是梯度消失或爆炸的問題，即設定閾值，如果梯度超過閾值，那麼就截斷，將梯度變為閾值

torch.nn.utils.clip_grad_norm_()

torch.nn.utils.clip_grad_norm_()；梯度裁剪；梯度截斷用法引數列表 parameters 一個由張量或單個張量組成的可迭代物件（模型引數）

零碎的一些函式，random.choice()、 torch.nn.utils.clip_grad_norm_()、OrderedDict、torch.autograd.grad（）

一、random.choice()方法，從列表中選擇一個元素進行輸出 import random name = [\'lili\', \'wangwei\', \'chenyu\', \'luoyan\']

pytorch torch.nn.AdaptiveAvgPool2d()自適應平均池化函式詳解

如題：只需要給定輸出特徵圖的大小就好，其中通道數前後不發生變化。具體如下：

PyTorch裡面的torch.nn.Parameter()詳解

在看過很多部落格的時候發現了一個用法self.v = torch.nn.Parameter(torch.FloatTensor(hidden_size)),首先可以把這個函式理解為型別轉換函式，將一個不可訓練的型別Tensor轉換成可以訓練的型別parameter並將這個par

pytorch1.0中torch.nn.Conv2d用法詳解

Conv2d的簡單使用 torch 包 nn 中 Conv2d 的用法與 tensorflow 中類似，但不完全一樣。

torch.nn.Embedding進行word Embedding

torch.nn.Embedding 在pytorch裡面實現word embedding是通過一個函式來實現的:nn.Embedding import torch

PyTorch之 torch.nn.Embedding 詞嵌入層的理解

1.word Embedding的概念理解首先，我們先理解一下什麼是Embedding。Word Embedding翻譯過來的意思就是詞嵌入，通俗來講就是將文字轉換為一串數字。因為數字是計算機更容易識別的一種表達形式。我們詞嵌入的過程，就

PyTorch基礎——torch.nn.CrossEntropyLoss交叉熵損失

技術標籤：PyTorch交叉熵損失本文只考慮基本情況，未考慮加權。 torch.nnCrossEntropyLosss使用的公式

torch.nn.ModuleList筆記

技術標籤：零基礎學習SSD網路PyTorch實現《深度學習之PyTorch實戰計算機視覺》Deep-Learning-with-PyTorch

torch.nn.functional.pad()函式的使用

技術標籤：pytorch 文章目錄函式測試影象示例參考來源連結函式測試 import torch import torch.nn.functional as F

torch.nn.LogSoftmax用法

技術標籤：PytorchpytorchLogSoftmax LOGSOFTMAX CLASS torch.nn.LogSoftmax(dim: Optional[int] = None)

torch.nn.MSELoss用法

技術標籤：PytorchpytorchMSELOSS MSELOSS CLASS torch.nn.MSELoss(size_average=None,reduce=None,reduction: str = \'mean\')

torch.nn.L1Loss用法

技術標籤：PytorchL1Losspytorch L1LOSS CLASS torch.nn.L1Loss(size_average=None,reduce=None,reduction: str = \'mean\')

torch.nn.ConvTranspose2d()

技術標籤：python神經網路pytorch 轉載自https://blog.csdn.net/qq_39777550/article/details/108965144?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control&dep