交叉熵
阿新 • • 發佈:2017-06-27
就會 分布 tex 交叉熵 最小 分享 相等 gen 最小值
盡可能地逼近甚至等於 ,從而使得相對熵接近最小值0。由於真實的概率分布是固定的,相對熵公式的後半部分 就成了一個常數。那麽相對熵達到最小值的時候,也意味著交叉熵達到了最小值。對 的優化就等效於求交叉熵的最小值。另外,對交叉熵求最小值,也等效於求最大似然估計(maximum likelihood estimation)。
註意:交叉熵是衡量分布p與分布q的相似性,以前認為交叉熵的相似性越大,交叉熵的值就應該越大。但通過上面的推到可以看出,交叉熵得到兩個分布的相似性是根據相對熵來的,所以相似性越大,交叉熵的值應該越小。
交叉熵可在神經網絡(機器學習)中作為損失函數,p表示真實標記的分布,q則為訓練後的模型的預測標記分布,交叉熵損失函數可以衡量真實分布p與當前訓練得到的概率分布q有多麽大的差異。
相對熵(relative entropy)就是KL散度(Kullback–Leibler divergence),用於衡量兩個概率分布之間的差異。
對於兩個概率分布和 ,其相對熵的計算公式為:
註意:由於 和 在公式中的地位不是相等的,所以。
相對熵的特點,是只有 時,其值為0。若 和 略有差異,其值就會大於0。
相對熵公式的前半部分 就是交叉熵(cross entropy)。
若 是數據的真實概率分布, 是由數據計算得到的概率分布。機器學習的目的就是希望
交叉熵