1. 程式人生 > 其它 >torch.nn.NLLLoss()與torch.nn.CrossEntropyLoss()

torch.nn.NLLLoss()與torch.nn.CrossEntropyLoss()

技術標籤:pytorch

torch.nn.NLLLoss()

class torch.nn.NLLLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean')
  • 計算公式:loss(input, class) = -input[class]
  • 公式理解:input = [-0.1187, 0.2110, 0.7463],target = [1],那麼 loss = -0.2110。
  • 個人理解:感覺像是把 target 轉換成 one-hot 編碼,然後與 input 點乘得到的結果。

nn.NLLLoss輸入是一個對數概率向量和一個目標標籤。NLLLoss() ,即負對數似然損失函式(Negative Log Likelihood)。

NLLLoss() 損失函式公式:
在這裡插入圖片描述

  • 常用於多分類任務,NLLLoss 函式輸入 input 之前,需要對 input 進行 log_softmax 處理,即將 input 轉換成概率分佈的形式,並且取對數,底數為 e。
  • y k y_k yk​表示one_hot 編碼之後的資料標籤。
  • 損失函式執行的結果為 y k y_k yk​與經過log_softmax執行的資料相乘,求平均值,在取反。
  • 實際使用NLLLoss()損失函式時,傳入的標籤,無需進行one_hot編碼。

例項1:

import torch
import torch.nn as nn
import torch.nn.functional as
F torch.manual_seed(2019) output = torch.randn(1, 3) # 網路輸出 target = torch.ones(1, dtype=torch.long).random_(3) # 真實標籤 print(output) print(target) # 直接呼叫 loss = F.nll_loss(output, target) print(loss) # 例項化類 criterion = nn.NLLLoss() loss = criterion(output, target) print(loss) """ tensor([[-0.1187, 0.2110, 0.7463]]) tensor([1]) tensor(-0.2110) tensor(-0.2110) """

例項2:
如果 input 維度為 M x N,那麼 loss 預設取 M 個 loss 的平均值,reduction=‘none’ 表示顯示全部 loss.

import torch
import torch.nn as nn
import torch.nn.functional as F
 
 
torch.manual_seed(2019)
output = torch.randn(2, 3)  # 網路輸出
target = torch.ones(2, dtype=torch.long).random_(3)  # 真實標籤
print(output)
print(target)
 
# 直接呼叫
loss = F.nll_loss(output, target)
print(loss)
 
# 例項化類
criterion = nn.NLLLoss(reduction='none')
loss = criterion(output, target)
print(loss)
 
"""
tensor([[-0.1187,  0.2110,  0.7463],
        [-0.6136, -0.1186,  1.5565]])
tensor([2, 0])
tensor(-0.0664)
tensor([-0.7463,  0.6136])
"""

參考:https://blog.csdn.net/weixin_40476348/article/details/94562240

torch.nn.CrossEntropyLoss()

對資料進行softmax,再log,再進行NLLLoss。其與nn.NLLLoss的關係可以描述為:

softmax(x)+log(x)+nn.NLLLoss====>nn.CrossEntropyLoss

無需對輸出結果進行softmax處理,使用nn.CrossEntropyLoss會自動加上Softmax層。
nn.CrossEntropy()的表示式:
在這裡插入圖片描述

import torch
import torch.nn as nn
 
a = torch.Tensor([[1,2,3]])
target = torch.Tensor([2]).long()
logsoftmax = nn.LogSoftmax()
ce = nn.CrossEntropyLoss()
nll = nn.NLLLoss()
 
# 測試CrossEntropyLoss
cel = ce(a,target)
print(cel)
# 輸出:tensor(0.4076)
 
# 測試LogSoftmax+NLLLoss
lsm_a = logsoftmax(a)
nll_lsm_a = nll(lsm_a,target)
# 輸出tensor(0.4076)

看來直接用nn.CrossEntropy和nn.LogSoftmax+nn.NLLLoss是一樣的結果。為什麼這樣呢,回想下交叉熵的表示式:
在這裡插入圖片描述
其中y是label,x是prediction的結果,所以其實交叉熵損失就是target對應位置的輸出結果x再取-log。這個計算過程剛好就是先LogSoftmax()再NLLLoss()。

參考:
https://blog.csdn.net/watermelon1123/article/details/91044856
https://blog.csdn.net/weixin_40522801/article/details/106616295