######好好好######MSE與CE的區別？數學推導本質理解

阿新 • • 發佈：2018-11-04

面試官先問了幾個簡單問題，精靈自然輕鬆答出來了。終於面試官問到了MSE和CE的區別。

面試官：MSE和CE你熟悉嗎？

精靈：熟悉，MSE就是mean square error，CE就是cross entropy。

面試官：沒錯，是這樣的，訓練神經網路時，你經常用哪一個？

精靈：如果是迴歸問題，用MSE，如果是分類問題，一般用CE。（這是一個小坑，先要區分問題是分類還是迴歸，面試官故意模糊這一點，就是考察精靈是否清楚這樣的細節）

面試官：為什麼呢？

精靈：因為MSE容易發生梯度消失問題，而CE則不會。

面試官：為什麼呢？

精靈：以分類問題為例，假設我們的類別數量是T，最後一層使用softmax。對一條樣本(x,c)而言，其label為c。在神經網路softmax之前那一層，共有T個神經元，讓我們將目光投向第c個神經元，如下圖所示：

不管是用MSE還是CE，我們都是希望y_c越大越好，其他與其並列的神經元越小輸出值越好。

如果是MSE，這條樣本的誤差是：

我們來分析這個誤差對於引數w的梯度。上式中一共有T項，我們不妨先取出其中一項，比如第一項來分析：

這裡，我省略了其中的推導過程，相信面試官您也能理解。觀察這個式子，我們發現了一個尷尬的問題，我們是想調整引數w從而增大這一項，使它儘可能接近於1：

可當這一項接近於0時，上面的梯度也將接近於0，因為該值就是梯度的一個因子。這就是gradient vannishing。

如果是用CE，則不會出現這個問題，用CE，其損失為：

同樣我們求該損失對w的梯度：

此時，我們發現，該梯度就不會發生gradient vanishing了。因為消去了導致梯度錯誤消失的因子。

可見，因為我們最後做了softmax，所以用CE會比MSE好。

面試官：不錯！分析的很到位！就你了，明天來公司上班吧！

精靈：好嘞！

作者：milter
連結：https://www.jianshu.com/p/5d13bcd9d990
來源：簡書
簡書著作權歸作者所有，任何形式的轉載都請聯絡作者獲得授權並註明出處。

######好好好######MSE與CE的區別？數學推導本質理解

面試官先問了幾個簡單問題，精靈自然輕鬆答出來了。終於面試官問到了MSE和CE的區別。面試官：MSE和CE你熟悉嗎？精靈：熟悉，MSE就是mean square error，CE就是cross entropy。面試官：沒錯，是這樣的，訓練神經網路時，你經常用哪一個？

GBDT與xgb區別，以及梯度下降法和牛頓法的數學推導

2019年01月05日 15:48:32 IT界的小小小學生閱讀數：31 標籤： xgb gbdt 梯度下降法牛頓法 xgboost原理更多個人分類： data mining 深度學習

面向過程與面向對象的本質區別－對面向過程與面向對象的一點感悟

層次包括感悟兩種上進 detail 計算行為向上面向過程與面向對象的本質區別一位計算機界的大師曾說過，“我認為，面向對象的目標從來都不是復用和擴展，而是提供一種處理復雜問題的方法”。面向過程講究自頂向下逐步求精。找到一個系統的入口然後順藤摸瓜，分析出每一步

3.Docker與LXC、虛擬化技術的區別——虛擬化技術本質上是在模擬硬件，Docker底層是LXC，本質都是cgroups是在直接操作硬件

相對 art 下載 replace tar mes 虛擬化存儲不同配置 viso 先說和虛擬化技術的區別難道虛擬技術就做不到嗎？不不不，虛擬技術也可以做到，但是會有一定程度的性能損失，靈活度也會下降。容器技術不是模仿硬件層次，而是在Linux內核裏使用cgrou

MSE與MAE的區別與如何選擇

mark下，講得非常好 http://rishy.github.io/ml/2015/07/28/l1-vs-l2-loss/ 參考：https://baijiaha

HashTable HashMap TreeMap 本質區別與使用區別個人解析

HashTable HashMap TreeMap 本質區別1. hashTable 執行緒安全不允許有null的鍵和值效率低方法是Synchronized的 HashTable 陣列預設大小是11 增加方式為 old*2+1

BDD本質及與ATDD區別

bullet 易懂一點 view 方便 then nbsp 開發 amp 說起BDD，你會想到什麽？在剛接觸BDD（Behavior Driven Development，行為驅動開發）的時候，我以為就是用Cucumber這樣的工具來編寫場景用例，從而實現

深度解讀：數學的本質與宇宙萬物的關聯--數學的本質是一門語言

捕捉形狀異常博大精深虛擬機會傳遞周期出現本文將會以數學為主線和切入點，進行一次思想和思維上的自由推理探索認知之旅，並將會透過一種有趣視角和觀點，窺見一個我們所熟悉又有所不同的世界、萬事萬物和我們的宇宙。現在就讓我們開始這次認知探索的旅程吧。概述

HAProxy與Nginx區別

時間請求也會維護異常會有訪問 haproxy 失敗 1）HAProxy對於後端服務器一直在做健康檢測（就算請求沒過來的時候也會做健康檢查）：後端機器故障發生在請求還沒到來的時候，haproxy會將這臺故障機切掉，但如果後端機器故障發生在請求到達期間，那麽前端訪問

axis2與cxf區別

開源社區 -s 實現部署廣泛 asi -a ice 喜歡 1.CXF支持 WS-Addressing，WS-Policy， WS-RM， WS-Security和WS-I Basic Profile。Axis2不支持WS-Policy，但是承諾在下面的版本支持。 2.

C#中out與ref區別

erro 變量但是 color 賦值運行網上 ann amp 一、ref（參考）與out區別 1、out（只出不進）將方法中的參數傳遞出去，在方法中將該參數傳遞出去之前需要在該方法起始賦初值；在方法外傳遞的該參數可以不用賦值；簡單理解就是：將一個東西拋出去之前必須

get( )與getline( )區別

clas 輸入緩沖 ont blog 函數 std etl con span get與getline區別不是很大，但一個明顯的區別是get遇到 ‘\n ‘字符後便返回，這是 ‘\n ‘還在緩沖區中，所以下次讀出來的將是 ‘\n ‘，而getline遇到 ‘\n ‘也返

dynamo與cassandra區別

ffi out thrown ive for enc coord towards ren 雖說cassandra是dynamo的開源版本，但兩者還是有很大區別的。 coordinator的選取：在dynamo論文中，一般是preference list中N個副本的第一個

xml 與html 區別

sim 顯示數據類型打開替代品 title extent 知識 col 一、什麽是HTML 帶著疑問走到這裏，一句話：HTML(HyperTextMark-upLanguage)即超文本標記語言，是WWW的描述語言。如果想了解更多請看以下博客：

Mysql中key 、primary key 、unique key 與index區別

條件那是 database 表空間可用 where 進行 utf8 擁有索引被用來快速找出在一個列上用一特定值的行。沒有索引，MySQL不得不首先以第一條記錄開始並然後讀完整個表直到它找出相關的行。表越大，花費時間越多。如果表對於查詢的列有一個索引，MySQL能快

Hibernate 與 mybatis 區別

精通 targe man 做的 select read 持久層定義順序 JAVA面試中問及HIBERNATE與 MYBATIS的對比，在這裏做一下總結我是一名java開發人員，hibernate以及mybatis都有過學習，在java面試中也被提及問道過，在項

Cookie與session區別

瀏覽器 cookie 通信設備 session與Cookie的區別此文章來自烏龜運維wuguiyunwei.comQQ群:602183872主要區別：Cookie，也稱為HTTP cookie，Web cookie或瀏覽器cookie，是從網站發送到服務器並存儲在用戶的Web瀏覽器中的一小部分數

Appium與Robotium區別

觸摸用戶不能語言設置分開 clas 輸入文字例子 mat Appium是基於UIAutomator框架實現的。Appium測試進程與目標應用進程是分開的，所以Appium不能直接訪問目標應用的各種element屬性進行copy&paste，而只能模擬觸發

STDIN_FILENO與stdin區別(轉)

strong 出現 stdin cti efi 兩個正常 span col 標準輸入 (stdin) 標準輸入是指數據（通常是文件）走向程序。程序要求數據傳輸使用讀的運算。並非所有程序都要求輸入。如dir或ls程序（顯示一個目錄中的文件名）運行時不用任何輸入。除非重導

cvCvtColor與cvtColor區別

blank 參數接口類類型 ima 灰度 another out ray 用到了rgb轉灰度圖功能，查到兩個函數，發現名字很像，功能也一樣，但是參數類型不一樣。記錄一下。可以看聲明，cvCvtColor是c語言風格接口。 /* Converts input arr

######好好好######MSE與CE的區別？數學推導 本質理解

相關推薦

######好好好######MSE與CE的區別？數學推導本質理解