《DOTA2》TI10 小組賽全部結束:iG、LGD、VG 晉級勝者組
阿新 • • 發佈:2021-10-13
條件熵 最大熵 特徵函式 Softmax
條件熵
使$P(y|x)$熵最大,這麼求?
$H^{(A)}=-\sum_{i=1}^nP(y_i^{(1)}|x)\log P(y_i^{(1)}|x)$
$H^{(B)}=-\sum_{i=1}^nP(y_i^{(2)}|x)\log P(y_i^{(2)}|x)$
條件熵:=$H(Y|X)=-\sum_{x,y}P(x)P(y|x)\log P(y|x)$
:=$E(H(Y|X=x^{(k)}))$
注意,公式中有$x,y$兩個變數,兩層累加
$H(Y|X)=-\sum_{x,y}P(x)P(y|x)\log P(y|x)$
$H(Y|X)=-\sum_{x,y}\tilde P(x)P(y|x)\log P(y|x)$
其中$P(x)$可以用經驗概率$\tilde P(x)$來近似代替
接著,轉換為求最小值
$\max_{x,y}H(Y|X)$
$\min_{x,y}\sum_{x,y}\tilde P(x)P(y|x)\log P(y|x)$
最大熵
最大熵問題就是使條件熵$P(y|x)$最大
Sigmoid 和 Softmax的本質都是最大熵
上面提到的條件熵,加上兩個約束條件,通過拉格朗日乘數法和對偶問題(不展開了,具體可看b站視訊,講的特別好),求出
$P(y_i|x)=\frac {e^{{\eta}^T} \cdot f(x,y_i)} {\sum_ye^{{\eta}^T} \cdot f(x,y)}$
這裡是不是就十分眼熟了,就是softmax的形式
這裡的$e$不僅是為了結果大於0這麼簡單,而是通過求最大熵引入的