1. 程式人生 > 其它 >資訊量 交叉熵 KL散度

資訊量 交叉熵 KL散度

資訊量

舉個例子,計算機需要輸入16位數,此時每種輸入的概率為${\frac 1 2}^{16}$

若已經輸入16位數,此時資訊已經確定,概率則為1,那麼這裡16位輸入的資訊量就是16bit

資訊量:=$-\log p_i$

描述事情由不確定變為確定的難度

資訊熵

通俗來講,就是一個系統資訊量的期望

熵:=$-\sum p_i\log pi$

相對熵 KL散度

$D_{KL}(P||Q)$ 以P為基準

$=\sum_{i=1}^m p_i(f_Q(q_i)-f_P(p_i))$

$=\sum_{i=1}^m p_i(-\log p_i - -\log q_i)$

$=\sum_{i=1}^m p_i(-\log q_i) -\sum_{i=1}^m p_i(-\log p_i)$

吉布斯不等式證明得知KL散度一定非負

概率模型P和Q越接近,KL散度越接近0

最後得出的這個式子前半部分就是交叉熵$H(P,Q)$,而後半部分正是P的資訊熵

P的資訊熵是現在是基準,是不會變的

那麼此時只用看前半部分交叉熵,最小化交叉熵,就能使模型Q與模型P更接近

所以交叉熵即可作為損失函式

交叉熵 Cross Entropy

交叉熵越小,兩個概率模型越接近

$H(P,Q)=\sum_{i=1}^m p_i(-\log q_i)$