對熵值法的理解
資訊量越大,不確定性越小,熵值越小,權重越大。
資訊量越小,不確定性越大,熵值越大,權重越小。
舉個栗子:
A要傳送一個數字1給B。
若不受干擾資訊的分散式是:
0%變為0,100%為1,0%為2 :計算:-sum(p_i*ln(p_i))=0
傳送途中受到干擾,此時1產生了變化。
20%可能變為0;50%為1;30%為2:計算:-sum(p_i*ln(p_i))>0
此時,不確定性增加了,B收到的不一定是原本的資訊,所以資訊量小了,此時熵值增大了。
容易發現分佈越均勻資訊量越小,熵值越大。
熵值最大時:
33.333%為0,33.333%為1,33.333%為2,此時計算熵值為1。資訊完全丟失,B收到的資料無任何價值。
容易發現的是:
根據你的資料,資料計算前,應該先計算資料分佈各學生分數/對應科目所有學生總分數:
學生 數學 體育 數學分佈 體育分佈 數學-p*LN(p) 體育-p*ln(p) 數學熵 體育熵 總分
學生5 100 90 6.90% 10.88% 0.18450371 0.241377935 2.770061734 2.505013889 502.4574234
學生3 97 89 6.69% 10.76% 0.181007621 0.239898405 2.770061734 2.505013889 491.6422243
學生13 88 98 6.07% 11.85% 0.170126782 0.2527425 2.770061734 2.505013889 489.2567937
學生7 77 100 5.31% 12.09% 0.155956805 0.255457619 2.770061734 2.505013889 463.7961424
學生2 80 96 5.52% 11.61% 0.159922833 0.249978022 2.770061734 2.505013889 462.0862721
學生12 98 76 6.76% 9.19% 0.182180002 0.219368105 2.770061734 2.505013889 461.8471055
學生9 99 56 6.83% 6.77% 0.183345342 0.182318462 2.770061734 2.505013889 414.5168894
學生14 88 56 6.07% 6.77% 0.170126782 0.182318462 2.770061734 2.505013889 384.0462104
學生6 90 43 6.21% 5.20% 0.17259747 0.153729138 2.770061734 2.505013889 357.0211533
學生11 89 32 6.14% 3.87% 0.171366003 0.125835794 2.770061734 2.505013889 326.6959388
學生8 88 32 6.07% 3.87% 0.170126782 0.125835794 2.770061734 2.505013889 323.925877
學生4 90 24 6.21% 2.90% 0.17259747 0.102725539 2.770061734 2.505013889 309.4258894
學生15 88 21 6.07% 2.54% 0.170126782 0.093275608 2.770061734 2.505013889 296.3707242
學生16 99 1 6.83% 0.12% 0.183345342 0.008123101 2.770061734 2.505013889 276.7411255
學生1 89 11 6.14% 1.33% 0.171366003 0.057459497 2.770061734 2.505013889 274.0906471
學生10 89 2 6.14% 0.24% 0.171366003 0.014569909 2.770061734 2.505013889 251.5455221
根據如上:數學資訊熵為:2.70571272834853,體育資訊熵為2.42484687963012。這裡資訊熵本應該應該進行一定的處理優化。但是目的是評分,所以細節就不要在意了
學生5是最好的,學生3第二。。。。。。
******************************************************************************************************************************************************************************************************
待進一步思考正確性:
對於連續分佈來說,給定均值方差,最大化的熵值會推出正態分佈,而在這種情況下,方差和熵都是成正比的,一個log函式曲線。
所以PCA在正態總體的假設情況下選擇方差較大的向量,也是得到較大熵值的向量組合。