資訊量 交叉熵 KL散度
阿新 • • 發佈:2021-10-22
資訊量
舉個例子,計算機需要輸入16位數,此時每種輸入的概率為${\frac 1 2}^{16}$
若已經輸入16位數,此時資訊已經確定,概率則為1,那麼這裡16位輸入的資訊量就是16bit
資訊量:=$-\log p_i$
描述事情由不確定變為確定的難度
資訊熵
通俗來講,就是一個系統資訊量的期望
熵:=$-\sum p_i\log pi$
相對熵 KL散度
$D_{KL}(P||Q)$ 以P為基準
$=\sum_{i=1}^m p_i(f_Q(q_i)-f_P(p_i))$
$=\sum_{i=1}^m p_i(-\log p_i - -\log q_i)$
$=\sum_{i=1}^m p_i(-\log q_i) -\sum_{i=1}^m p_i(-\log p_i)$
由吉布斯不等式證明得知KL散度一定非負
概率模型P和Q越接近,KL散度越接近0
最後得出的這個式子前半部分就是交叉熵$H(P,Q)$,而後半部分正是P的資訊熵
P的資訊熵是現在是基準,是不會變的
那麼此時只用看前半部分交叉熵,最小化交叉熵,就能使模型Q與模型P更接近
所以交叉熵即可作為損失函式
交叉熵 Cross Entropy
交叉熵越小,兩個概率模型越接近
$H(P,Q)=\sum_{i=1}^m p_i(-\log q_i)$