深度學習基礎--loss與啟用函式--loss簡介

阿新 • • 發佈：2018-12-21

loss簡介

為了訓練我們的模型，我們首先需要定義一個指標來評估這個模型是好的。反過來想，在機器學習，我們通常定義指標來表示一個模型是壞的，這個指標稱為成本（cost）或損失（loss），然後儘量最小化這個指標。但是，這兩種方式是相同的。

常見的損失函式

1）Cross-Entropy；
2）MSE，sigmoid和softmax；
3）K-L散度

分類loss

對於分類loss，是一個N+1路的softmax輸出，其中的N是類別個數，1是背景，使用softmax分類器。

迴歸loss

對於迴歸loss，是一個4xN路輸出的bounding-box regressor（有4個元素(x,y,w,h)，左上角座標(x,y)，寬w，高h），也就是說對於每個類別都會訓練一個單獨的regressor。
線性迴歸只適用於因變數為連續型變數，多項邏輯迴歸是因變數有多個取值。

深度學習基礎--loss與啟用函式--loss簡介

loss簡介為了訓練我們的模型，我們首先需要定義一個指標來評估這個模型是好的。反過來想，在機器學習，我們通常定義指標來表示一個模型是壞的，這個指標稱為成本（cost）或損失（loss），然後儘量最小化這個指標。但是，這兩種方式是相同的。常見的損失函式

深度學習基礎--loss與啟用函式--廣義線性模型與各種各樣的啟用函式(配圖)

廣義線性模型是怎被應用在深度學習中? 深度學習從統計學角度，可以看做遞迴的廣義線性模型。廣義線性模型相對於經典的線性模型(y=wx+b)，核心在於引入了連線函式g(.)，形式變為：y=g(wx+b)。深度學習時遞迴的廣義線性模型，神經元的啟用函式，即為廣義線性模型的連結函式

深度學習基礎--loss與啟用函式--Relu的變種

Relu的變種 softplus/softrelu softplus 是對 ReLU 的平滑逼近的解析函式形式。 softplus的公式： f(x)=ln(1+e^x) Relu與PRelu ai是增加的引數，ai=0；為ReLU，若ai取很小的固定值，則為

深度學習基礎--loss與啟用函式--Relu(Rectified Linear Units)

ReLu(Rectified Linear Units)，即修正線性單元它是不飽和的、線性的函式。可以認為是一種特殊的maxout。 Relu的優點 1）採用sigmoid和tanh等函式，算啟用函式時（指數運算），計算量大，反向傳播求誤差梯度時，求導涉及除法，計算量相

深度學習基礎--loss與啟用函式--好的啟用函式的性質

好的啟用函式的性質 1）不會飽和。sigmoid和tanh啟用函式在兩側尾端會有飽和現象，這會使導數在這些區域接近零，從而阻礙網路的訓練。 2）零均值。ReLU啟用函式的輸出均值不為零，這會影響網路的訓練。 3）容易計算。使用：最好不要用 sigmoid，你可以試試

深度學習基礎--loss與啟用函式--感知損失(Perceptual Loss)

感知損失(Perceptual Loss) 常用於GAN網路生成。 Perceptual Loss的出現證明了一個訓練好的CNN網路的feature map可以很好的作為影象生成中的損失函式的輔助工具。 GAN可以利用監督學習來強化生成網路的效果。其效果的原因雖然還不具可解釋

深度學習基礎--loss與啟用函式--合頁損失函式、摺頁損失函式；Hinge Loss；Multiclass SVM Loss

合頁損失函式、摺頁損失函式；Hinge Loss；Multiclass SVM Loss Hinge Loss是一種目標函式（或者說損失函式）的名稱，有的時候又叫做max-margin objective。用於分類模型以尋找距離每個樣本的距離最大的決策邊界，即最大化樣本和邊界之間的邊

深度學習基礎--loss與啟用函式--sigmiod與softmax；對數損失函式與交叉熵代價函式

sigmiod與softmax sigmiod就是邏輯迴歸（解決二分類問題）；softmax是多分類問題的邏輯迴歸雖然邏輯迴歸能夠用於分類，不過其本質還是線性迴歸。它僅線上性迴歸的基礎上，在特徵到結果的對映中加入了一層sigmoid函式（非線性）對映，即先把特徵線性求和，然後使

深度學習基礎--loss與啟用函式--CTC（Connectionist temporal classification）的loss

CTC（Connectionist temporal classification）的loss 用在online sequence。由於需要在分類結果中新增一個{no gesture}的類別，如果用在segmented video的分類時，需要去掉這類（因為視訊總屬於某個類）。

深度學習基礎--loss與啟用函式--triplet loss

triplet loss triplet是一個三元組，這個三元組是這樣構成的：從訓練資料集中隨機選一個樣本，該樣本稱為Anchor，然後再隨機選取一個和Anchor (記為x_a)屬於同一類的樣本和不同類的樣本,這兩個樣本對應的稱為Positive (記為x

深度學習基礎--loss與啟用函式--Total variation loss

Total variation loss/total variation regularization/Total variation denoising 參考資料：https://en.wikipedia.org/wiki/Total_variation_

深度學習幾種主流啟用函式總結

啟用函式的定義加拿大蒙特利爾大學的Bengio教授在 ICML 2016 的文章[1]中給出了啟用函式的定義：啟用函式是對映 h:R→R，且幾乎處處可導。啟用函式的性質非線性：當啟用函式是線性的時候，一個兩層的神經網路就可以逼近基本上所有的函數了。但是，如果啟

深度學習筆記(三)：啟用函式和損失函式

這一部分來探討下啟用函式和損失函式。在之前的logistic和神經網路中，啟用函式是sigmoid, 損失函式是平方函式。但是這並不是固定的。事實上，這兩部分都有很多其他不錯的選項，下面來一一討論 3. 啟用函式和損失函式 3.1 啟

Tensorflow深度學習之五：啟用函式

啟用函式的作用在神經網路中，啟用函式的作用是能夠給神經網路加入一些非線性因素，使得神經網路可以更好地解決較為複雜的問題。我們嘗試引入非線性的因素，對樣本進行分類。在神經網路中也類似，我們需要引入一些非線性的因素，來更好地解決複雜的問題。而啟用函式恰好

深度學習入門（一）感知機與啟用函式

文章目錄感知機啟用函式 1.sigmoid 2.tanh 3.relu 4.softmax 25天看完了吳恩達的機器學習以及《深度學習入門》和《tensorflow實戰》兩本書，吳恩達的學習課程只學了理論知識，另外兩本

[深度學習] 梯度消失與梯度爆炸、Loss為Nan的原因

現象如何確定是否出現梯度爆炸？在訓練過程中出現梯度爆炸會伴隨一些細微的訊號，如：（1）模型無法從訓練資料中獲得更新；（2）模型不穩定，導致更新過程中的損失出現顯著變化；（3）訓練過程中，模型的損失變為Nan。梯度消失與梯度爆炸原因首先，來看神經

深度學習基礎--傳統機器學習與深度學習的區別

傳統機器學習與深度學習的區別 1）傳統機器學習：利用特徵工程 (feature engineering)，人為對資料進行提煉清洗 2）深度學習：利用表示學習 (representation learning)，機器學習模型自身對資料進行提煉，不需要選擇特徵、壓縮維度、轉換格式等對

深度學習基礎--正則化與norm--區域性響應歸一化層(Local Response Normalization, LRN)

區域性響應歸一化層(Local Response Normalization, LRN) 區域性響應歸一化層完成一種“臨近抑制”操作，對區域性輸入區域進行歸一化。該層實際上證明已經沒啥用了，一般也不用了。參考資料：見郵件公式與計算該層需要的引數包括：

深度學習基礎--正則化與norm--Ln正則化綜述

L1正則化 L1範數是指向量中各個元素的絕對值之和。對於人臉任務原版的人臉畫素是 64*64，顯然偏低，但要提高人臉清晰度，並不能僅靠提高圖片的解析度，還應該在訓練方法和損失函式上下功夫。眾所周知，簡單的 L1Loss 是有數學上的均值性的，會導致模糊。

深度學習基礎--正則化與norm--L1範數與L2範數的聯絡

L1範數與L2範數的聯絡假設需要求解的目標函式為：E(x) = f(x) + r(x) 其中f(x)為損失函式，用來評價模型訓練損失，必須是任意的可微凸函式，r(x)為規範化約束因子，用來對模型進行限制。根據模型引數的概率分佈不同，r(x)一般有: 1）L1正規化