《VISUALIZING THE LOSS LANDSCAPE OF NEURAL NETS》論文解析
引言
神經網路的損失函式是一個高度非凸的函式,神經網路的訓練在於我們能否在這個高度非凸的函式裡找到最小值。總所周知,某些網路(如帶skip connections)會比較容易訓練,超引數(批量大小,學習率,優化器)選擇的合適,會使得模型泛化能力更高。但是,造成這些區別的原因究竟是什麼?他們對損失函式的曲面造成什麼影響,都是不太清楚的。
這篇論文裡,我們使用視覺化的方法,探索了損失函式的結構和損失函式曲面對泛化效能的影響。首先我們介紹了一個簡單的“filter normalization"方法來幫助我們視覺化損失函式彎曲面,和然後利用這個對各種不同損失函式做有意義的比較;然後,我們用各種視覺化方法,來探索網路結構如何影響損失曲面,及訓練超引數如何影響最小點的形狀。
介紹
訓練神經網路需要最小化一個高維非凸的損失函式-理論上一直都是很難的任務,但有時實際中又很容易做到。儘管訓練通用神經網路存在NP問題,簡單的梯度方法常常可以找到全域性最小(零或者近似零),甚至在資料和標籤都是隨機的。但是這個良好特效並不是普遍存在的。神經網路的可訓練性高度依賴網路架構設計,優化器選擇,初始化方法和各種各樣的其他考慮。不幸的是,這些選擇對底層的損失函式曲面結構的影響是不太清楚的。因為對損失函式評估的巨大代價(需要迴圈訓練資料上面的所有點),這方面的研究一直停留在理論層面。
我們使用高度視覺化方法來提供神經網路損失函式的一些經驗性特徵,探索網路架構的選擇如何影響損失函式曲面。更進一步,我們探索了神經網路損失函式的非凸結構如何影響可訓練性,神經網路的極小點的幾何形狀(尖銳/平滑,周圍地形)如何影響他們的泛化效能。
為了做到這一點,我們提出了一個簡單的”filter normalization"的方法來比較神經網路不同優化方法找到的最小點,視覺化來比較他們的銳度/平滑,也比較了網路結構選擇對損失函式曲面的影響(使用skip connections,不同的filter數量,不同的網路深度)。我們的目的是為了瞭解損失函式幾何形狀如何影響神經網路的泛化效能。
理論背景和相關工作
略
損失函式視覺化基礎
神經網路訓練就是最小化下面公式:
其中θ是網路引數權重,xi,yi是訓練資料,m是訓練資料集數量,表示著網路如何