1. 程式人生 > 資訊 >工信部擬撤銷理想 ONE 免稅購置,後者迴應:系 2020 款,且從未銷售

工信部擬撤銷理想 ONE 免稅購置,後者迴應:系 2020 款,且從未銷售

條件熵 最大熵 特徵函式 Softmax

條件熵

使$P(y|x)$熵最大,這麼求?

$H^{(A)}=-\sum_{i=1}^nP(y_i^{(1)}|x)\log P(y_i^{(1)}|x)$

$H^{(B)}=-\sum_{i=1}^nP(y_i^{(2)}|x)\log P(y_i^{(2)}|x)$

條件熵:=$H(Y|X)=-\sum_{x,y}P(x)P(y|x)\log P(y|x)$

:=$E(H(Y|X=x^{(k)}))$

注意,公式中有$x,y$兩個變數,兩層累加

$H(Y|X)=-\sum_{x,y}P(x)P(y|x)\log P(y|x)$

$H(Y|X)=-\sum_{x,y}\tilde P(x)P(y|x)\log P(y|x)$

其中$P(x)$可以用經驗概率$\tilde P(x)$來近似代替

接著,轉換為求最小值

$\max_{x,y}H(Y|X)$

$\min_{x,y}\sum_{x,y}\tilde P(x)P(y|x)\log P(y|x)$

最大熵

最大熵問題就是使條件熵$P(y|x)$最大

Sigmoid 和 Softmax的本質都是最大熵

上面提到的條件熵,加上兩個約束條件,通過拉格朗日乘數法和對偶問題(不展開了,具體可看b站視訊,講的特別好),求出

$P(y_i|x)=\frac {e^{{\eta}^T} \cdot f(x,y_i)} {\sum_ye^{{\eta}^T} \cdot f(x,y)}$

這裡是不是就十分眼熟了,就是softmax的形式

這裡的$e$不僅是為了結果大於0這麼簡單,而是通過求最大熵引入的