為什麼交叉熵可以作為損失函式?
通俗的理解:
熵:可以表示一個事件A的自資訊量,就是A包含多少資訊。
KL散度:可以用來表示從事件A的角度來看,事件B有多大不同。
交叉熵:可以用來表示從事件A的角度來看,如何描述事件B。
熵的公式:
KL散度的公式: 交叉熵的公式: 所以A與B的交叉熵 = A與B的KL散度 - A的熵
當A的熵一定,最小化交叉熵與最小化KL散度等價。
例如在邏輯迴歸中,我們實際上實在最小化模型的分佈與訓練資料的分佈的KL散度,因為訓練資料的分佈也就是熵一定,所以我們可以通過最小化交叉熵來實現,因為交叉熵的形式比KL散度的形式簡單。