論文翻譯:A Tutorial on Energy-Based Learning
阿新 • • 發佈:2019-01-04
文章地址LeCun經典論文
Abstract
基於能量的模型(EBM)通過將標量能量與變數的每個配置相關聯來捕獲變數之間的依賴關係。推論包括鉗制觀測變數的值,並找出使能量最小的其餘變數的配置。學習包括找到一個能量函式,其中變數的觀察結構的能量比不可觀測的能量要低。 EBM方法為許多學習模型提供了一個共同的理論框架,包括傳統的判別式和生成式方法,圖形變換網路,條件隨機場,最大餘量馬爾可夫網路以及多種多樣的學習方法。概率模型必須正確地歸一化,有時需要在所有可能的變數配置的空間上評估難以處理的積分。由於循證醫學對適當的正常化沒有要求,所以這個問題是自然規避的。 EBMs可以被看作是非概率因子圖的一種形式,它們在架構和訓練標準的設計上比概率方法提供了更多的靈活性。
1. Introduction:基於能量的模型
基於能量的模型(EBM)通過將標量能量(相容性度量)與變數的每個配置相關聯來捕獲依賴關係。推斷,即進行預測或決定,包括設定觀測變數的值並找出使能量最小的其餘變數的值。學習包括找到一個能量函式,將低能量與其餘變數的正確值相關聯,將高能量與不正確的值相關聯。在學習期間最小化的損失功能用於測量可用能量函式的質量。在這個通用的推理/學習框架中,能量函式和損失函式的廣泛選擇允許設計許多型別的統計模型,包括概率和非概率。
基於能量的學習為許多概率和非概率的學習方法提供了一個統一的框架,特別是對圖形模型和其他結構化模型的非概率性培訓。基於能量的學習可以被看作是預測,分類或決策任務的概率估計的替代方法。由於不需要適當的歸一化,所以基於能量的方法避免了與估計概率模型中歸一化常數相關的問題。此外,歸一化條件的缺乏使得學習機器的設計具有更大的靈活性。大多數概率模型可以被看作是能量函式滿足一定的標準化條件的特殊型別的基於能量的模型,其中通過學習優化的損失函式具有特定的形式。
本章介紹了基於能源模型的教程,重點介紹了它們用於結構化輸出問題和序列標籤問題。第1節介紹基於能量的模型,並通過能量最小化描述確定性推理。第2節介紹基於能量的學習和損失函式的概念。描述了許多標準和非標準損失函式,包括感知器損失,多個基於邊際的損失和負對數可能性損失。負對數似然損失可以用來訓練一個模型來產生條件概率估計。第三部分展示瞭如何在EBM框架中制定簡單的迴歸和分類模型。第四部分涉及包含潛在變數的模型。第5節詳細分析了各種損失函式,並給出了損失函式必須滿足的充分條件,使其最小化將導致模型接近所需的行為。給出了“好”和“壞”損失函式的列表。第6節介紹了非概率因子圖的概念,並且非正式地討論了有效的推理演算法。第7節著重於序列標籤和結構化輸出模型。線性模型,如最大邊緣馬爾可夫網路和條件隨機場在EBM框架中重新制定。回顧80年代後期和90年代初的關於言語和手寫體識別學習的文獻。這包括集成了非線性判別函式(如神經網路)和序列比對方法(如動態時間規整和隱馬爾可夫模型)的全球訓練系統。還討論了圖形變換器網路體系結構等分層模型。最後,第8節討論了基於能量的方法,概率方法和基於取樣的近似方法(如對比分歧)的差異,共性和相對優勢。
8.5. Conclusion
本教程是為了介紹和解釋以下主要思想而編寫的:
•許多現有的學習模式可以簡單地表示在能量學習的框架內。
•在文獻中提到的許多損失函式中,有些是好的(非零邊際),有些可能是壞的。
•概率學習是基於能量學習的特例,其中損失函式是負對數似然,也就是最大的互資訊標準。
•隨機梯度法優化損失函式通常比黑箱凸優化法更有效。隨機梯度方法可以應用於包括非凸函式在內的任何損失函式。由於空間的高維度,區域性極小在實踐中很少成為問題。
•支援向量馬爾可夫模型,最大邊緣馬爾可夫網路和條件隨機場都是使用線性引數化能量因子的序列建模系統。自二十世紀九十年代初以來,具有用於語音和手寫識別的非線性引數化的序列建模系統一直是非常活躍的研究領域。自90年代初以來。
•圖變換器網路是分級序列建模系統,其中被操縱的物件是包含給定級別的所有替代解釋的格子。全域性訓練可以使用隨機梯度,通過使用一種反向傳播演算法的形式來計算相對於系統中所有引數的損失的梯度。