【轉】通俗理解資訊熵

阿新 • • 發佈：2018-12-24

前段時間德川和我講解了決策樹的相關知識，裡面德川說了一下熵，今天整理了一下，記錄下來希望對大家理解有幫助~

資訊熵的公式

先丟擲資訊熵公式如下：

其中 $P(x_{i})$ 代表隨機事件X為 $x_{i}$ 的概率，下面來逐步介紹資訊熵的公式來源！

資訊量

資訊量是對資訊的度量，就跟時間的度量是秒一樣，當我們考慮一個離散的隨機變數x的時候，當我們觀察到的這個變數的一個具體值的時候，我們接收到了多少資訊呢？

多少資訊用資訊量來衡量，我們接受到的資訊量跟具體發生的事件有關。

資訊的大小跟隨機事件的概率有關。越小概率的事情發生了產生的資訊量越大，如湖南產生的地震了；越大概率的事情發生了產生的資訊量越小

，如太陽從東邊升起來了（肯定發生嘛，沒什麼資訊量）。這很好理解！

例子

腦補一下我們日常的對話：

師兄走過來跟我說，立波啊，今天你們湖南發生大地震了。

我：啊，不可能吧，這麼重量級的新聞！湖南多低的概率發生地震啊！師兄，你告訴我的這件事，資訊量巨大，我馬上打電話問問父母什麼情況。

又來了一個師妹：立波師兄，我發現了一個重要情報額，原來德川師兄有女朋友額~德川比師妹早進一年實驗室，全實驗室同學都知道了這件事。我大笑一聲：哈哈哈哈，這件事大家都知道了，一點含金量都沒有，下次八卦一些其它有價值的新聞吧！orz，逃~

因此一個具體事件的資訊量應該是隨著其發生概率而遞減的，且不能為負。

但是這個表示資訊量函式的形式怎麼找呢？

隨著概率增大而減少的函式形式太多了！不要著急，我們還有下面這條性質

如果我們有倆個不相關的事件x和y，那麼我們觀察到的倆個事件同時發生時獲得的資訊應該等於觀察到的事件各自發生時獲得的資訊之和，即：

h(x,y) = h(x) + h(y)

由於x，y是倆個不相關的事件，那麼滿足p(x,y) = p(x)*p(y).

根據上面推導，我們很容易看出h(x)一定與p(x)的對數有關（因為只有對數形式的真數相乘之後，能夠對應對數的相加形式，可以試試）。因此我們有資訊量公式如下：

$h(x)=-log_{2}p(x)$

下面解決倆個疑問？

（1）為什麼有一個負號

其中，負號是為了確保資訊一定是正數或者是0，總不能為負數吧！

（2）為什麼底數為2

這是因為，我們只需要資訊量滿足低概率事件x對應於高的資訊量。那麼對數的選擇是任意的。我們只是遵循資訊理論的普遍傳統，使用2作為對數的底！

資訊熵

下面我們正式引出資訊熵。

資訊量度量的是一個具體事件發生了所帶來的資訊，而熵則是在結果出來之前對可能產生的資訊量的期望——考慮該隨機變數的所有可能取值，即所有可能發生事件所帶來的資訊量的期望。即

$H(x)=-sum (p(x)log_{2}p(x) )$

轉換一下為：

最終我們的公式來源推導完成了。

這裡我再說一個對資訊熵的理解。資訊熵還可以作為一個系統複雜程度的度量，如果系統越複雜，出現不同情況的種類越多，那麼他的資訊熵是比較大的。

如果一個系統越簡單，出現情況種類很少（極端情況為1種情況，那麼對應概率為1，那麼對應的資訊熵為0），此時的資訊熵較小。

這也就是我理解的資訊熵全部想法，希望大家指錯交流。也希望對大家理解有幫助~

參考：

“熵”的通俗解釋 - 七月線上

關於資訊熵的個人通俗的理解

prml1.6節

致謝：

德川，郭江師兄

編輯於 2017-04-21

【轉】通俗理解資訊熵

前段時間德川和我講解了決策樹的相關知識，裡面德川說了一下熵，今天整理了一下，記錄下來希望對大家理解有幫助~ 資訊熵的公式先丟擲資訊熵公式如下：其中代表隨機事件X為的概率，下面來逐步介紹資訊熵的公式來源！資訊量資訊

【轉】通俗理解條件熵

前面我們總結了資訊熵的概念通俗理解資訊熵 - 知乎專欄,這次我們來理解一下條件熵。我們首先知道資訊熵是考慮該隨機變數的所有可能取值，即所有可能發生事件所帶來的資訊量的期望。公式如下：我們的條件熵的定義是：定義為X給定條件下，Y的條件概率分佈的熵對X的數學期望

【轉】深入理解margin

盒模型 mbed 推理日誌 onf cap limited textarea 效果由淺入深漫談margin屬性 2007-3-18 上午 - HTML/CSS/XML/XSL - CSS - margin margin 在中文中我們翻譯成外邊距或者外補白（

【轉】如何理解雲計算？很簡單，就像吃貨想吃披薩了

公司如果 pan 雲技術 cit 分類本地應用 style 分發你一定聽說過雲計算中的三個“高大上”的概念：IaaS、PaaS和SaaS。這幾個術語並不好理解。不過，如果你是個吃貨，還喜歡披薩，這個問題就好解決了!好吧，其實你根本不是一個吃貨，之所以自我標榜為

【轉】深入淺出理解決策樹演算法（二）-ID3演算法與C4.5演算法

從深入淺出理解決策樹演算法（一）-核心思想 - 知乎專欄文章中，我們已經知道了決策樹最基本也是最核心的思想。那就是其實決策樹就是可以看做一個if-then規則的集合。我們從決策樹的根結點到每一個都葉結點構建一條規則。並且我們將要預測的例項都可以被一條路徑或者一條規則所覆蓋。如下例：假設我

【轉】深入淺出理解決策樹演算法（一）-核心思想

演算法思想決策樹（decision tree）是一個樹結構（可以是二叉樹或非二叉樹）。其每個非葉節點表示一個特徵屬性上的測試，每個分支代表這個特徵屬性在某個值域上的輸出，而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始，測試待分類項中相應的特徵屬性，並按照其值選擇

【轉】深入理解定位父級offsetParent及偏移大小

　偏移量(offset dimension)是javascript中的一個重要的概念。涉及到偏移量的主要是offsetLeft、offsetTop、offsetHeight、offsetWidth這四個屬性。當然，還有一個偏移參照——定位父級offsetParent。本文將詳細介紹該部分內容

【演算法】決策樹,資訊熵,資訊增益,Gini

決策樹演算法中，ID3使用資訊增益(選大的)，C4.5使用資訊增益比(選大的)，CART使用Gini(選小的)。決策樹是通過一系列規則對資料進行分類的過程。它提供一種在什麼條件下會得到什麼值的類似規則的方法。決策樹分為分類樹和迴歸樹兩種，分類樹對離散變數做決策樹，迴歸樹對連續

【轉】深入理解C++的動態繫結和靜態繫結

為了支援c++的多型性，才用了動態繫結和靜態繫結。理解他們的區別有助於更好的理解多型性，以及在程式設計的過程中避免犯錯誤。需要理解四個名詞： 1、物件的靜態型別：物件在宣告時採用的型別。是在編譯期確定的。 2、物件的動態型別：目前所指物件的型別。是在執行期決定的。物件的

【轉】深入理解JDBC的超時設定

恰當的JDBC超時設定能夠有效地減少服務失效的時間。本文將對資料庫的各種超時設定及其設定方法做介紹。真實案例：應用伺服器在遭到DDos攻擊後無法響應在遭到DDos攻擊後，整個服務都垮掉了。由於第四層交換機不堪重負，網路變得無法連線，從而導致業務系統也無法正常運轉。安全組很快遮蔽了所有的DDos攻擊，並恢復了網

【轉】深入理解Linux的系統呼叫

　　一、什麼是系統呼叫　　　　在Linux的世界裡，我們經常會遇到系統呼叫這一術語，所謂系統呼叫，就是核心提供的、功能十分強大的一系列的函式。這些系統呼叫是在核心中實現的，再通過一定的方式把系統呼叫給使用者，一般都通過門(gate)陷入(trap)實現。系統呼叫是使用

【轉】深入理解Java：註解（Annotation）--註解處理器

display 枚舉 lec con null cto run toolbar int https://www.cnblogs.com/peida/archive/2013/04/26/3038503.html 　　如果沒有用來讀取註解的方法和工作，那麽註解也就

【轉】深入理解javascript中的立即執行函數(function(){…})()

但是不可模仿不同之處調用函數 title 指定作用 () javascript和其他編程語言相比比較隨意，所以javascript代碼中充滿各種奇葩的寫法，有時霧裏看花，當然，能理解各型各色的寫法也是對javascript語言特性更進一步的深入理解。 ( fun

【轉】java提高篇(二)-----理解java的三大特性之繼承

logs 了解向上轉型 one 調用 adding nbsp eight 基礎【轉】java提高篇(二)-----理解java的三大特性之繼承原文地址：http://www.cnblogs.com/chenssy/p/3354884.html 在《Thi

【轉】$.ajax({});的各個參數的理解

roc ipa 代碼參數傳遞 lba tty get請求數據類型函數名 ajax---Asynchronous JavaScript And XML-------異步JavaScript和XML-------(萬一你不知道這幾個字符啥意思呢)

理解javascript中的回調函數(callback)【轉】

自己實現需要 his tab 定義函數 copy 輸入 mil 幹什麽在JavaScrip中，function是內置的類對象，也就是說它是一種類型的對象，可以和其它String、Array、Number、Object類的對象一樣用於內置對象的管理。因為function

【轉】理解Callable 和 Spring DeferredResult

控制 defer -a word int https .html getc when http://www.cnblogs.com/aheizi/p/5659030.html 1-介紹 Servlet 3中的異步支持為在另一個線程中處理HTTP請求提供了可能性。當

【轉】深度學習基礎概念理解

器）好處網站 water weight tar 直觀 str view 原文鏈接神經網絡基礎 1）神經元（Neuron）——就像形成我們大腦基本元素的神經元一樣，神經元形成神經網絡的基本結構。想象一下，當我們得到新信息時我們該怎麽做。當我們獲取信息時，我們一般會處

我理解的樸素貝葉斯模型【轉】

package 規則 dia div href 重要源代碼容易計算轉自：http://www.cnblogs.com/nxld/p/6607943.html 我想說：“任何事件都是條件概率。”為什麽呢？因為我認為，任何事件的發生都不是完全偶然的，它都會以其他事件的

【轉】編寫高質量代碼改善C#程序的157個建議——建議28：理解延遲求值和主動求值之間的區別

ons ati rgs 理解問題效率 sele 而不是 reac 建議28：理解延遲求值和主動求值之間的區別要理解延遲求值（lazy evaluation）和主動求值（eager evaluation），先看個例子： List<in

【轉】通俗理解資訊熵

資訊熵的公式

資訊量

例子

資訊熵

相關推薦