1. 程式人生 > >交叉熵

交叉熵

就會 分布 tex 交叉熵 最小 分享 相等 gen 最小值

交叉熵可在神經網絡(機器學習)中作為損失函數,p表示真實標記的分布,q則為訓練後的模型的預測標記分布,交叉熵損失函數可以衡量真實分布p與當前訓練得到的概率分布q有多麽大的差異。

相對熵(relative entropy)就是KL散度(Kullback–Leibler divergence),用於衡量兩個概率分布之間的差異。

對於兩個概率分布技術分享技術分享 ,其相對熵的計算公式為:

技術分享

註意:由於技術分享技術分享 在公式中的地位不是相等的,所以技術分享

相對熵的特點,是只有技術分享 時,其值為0。若技術分享技術分享 略有差異,其值就會大於0。

相對熵公式的前半部分技術分享 就是交叉熵(cross entropy)。

技術分享 是數據的真實概率分布,技術分享 是由數據計算得到的概率分布。機器學習的目的就是希望技術分享

盡可能地逼近甚至等於技術分享 ,從而使得相對熵接近最小值0。由於真實的概率分布是固定的,相對熵公式的後半部分技術分享 就成了一個常數。那麽相對熵達到最小值的時候,也意味著交叉熵達到了最小值。對技術分享 的優化就等效於求交叉熵的最小值。另外,對交叉熵求最小值,也等效於求最大似然估計(maximum likelihood estimation)。

註意:交叉熵是衡量分布p與分布q的相似性,以前認為交叉熵的相似性越大,交叉熵的值就應該越大。但通過上面的推到可以看出,交叉熵得到兩個分布的相似性是根據相對熵來的,所以相似性越大,交叉熵的值應該越小。

交叉熵