資訊熵---資訊不確定度

阿新 • • 發佈：2019-01-28

2 直觀解釋

資訊熵用來衡量資訊量的大小

若不確定性越大，則資訊量越大，熵越大

若不確定性越小，則資訊量越小，熵越小

比如A班對B班，勝率一個為x，另一個為1-x

則資訊熵為 -(xlogx + (1-x)log(1-x))

求導後容易證明x=1/2時取得最大，最大值為2

也就是說兩者勢均力敵時，不確定性最大，熵最大。

3 應用

資料探勘中的決策樹。

構建決策樹的過程，就是減小資訊熵，減小不確定性。從而完整構造決策樹模型。

所以我們需要在每一次選擇分支屬性時，計算這樣分類所帶來的資訊熵的增益，增益越大，不確定性越小，最終也就是我們要選擇的分支屬性。

首先我們會在未進行任何分類前求取一個資訊熵，這個資訊熵涉及到只是簡單的求取樣本標籤的分佈，然後按照公式求解資訊熵。

之後在選用某一個屬性作為分支屬性後，我們需要計算每一個子分支中的樣本標籤的分佈，然後計算每個子樣本的資訊熵，最後加權平均（期望），求得總的資訊熵。

計算前後兩個資訊熵的差值，選擇最大的增益屬性作為分支屬性。

一直遞迴下去，對每一個子樣本套用上述方法。直到所有的樣本都被歸類於某個葉節點，即不可再分為止。

以上方法是ID3方法，還有更好的C4.5方法

C4.5方法選用資訊增益比，克服了ID3使用資訊增益選擇屬性時偏向取值較多的屬性的不足。

除了可以處理離散型別的屬性，還可以處理連續型。

處理連續型屬性時，最重要的一步確定分割點。這裡同樣需要用到資訊增益比。

我們可以人工的為選擇一系列的分割點，然後分別計算被分割點分割的前後兩個區間的資訊熵，最後加權求得該分割點情況下的資訊熵。

最後取資訊增益最大的分割點作為分割條件。

簡而言之，和ID3相比，就是在計算分割點的時候，需要額外用到一次資訊增益法。

資訊熵---資訊不確定度

2 直觀解釋資訊熵用來衡量資訊量的大小若不確定性越大，則資訊量越大，熵越大若不確定性越小，則資訊量越小，熵越小比如A班對B班，勝率一個為x，另一個為1-x 則資訊熵為 -(xlogx + (1-x)log(1-x)) 求導後容易證明x=1/2時取得最大，最大值為

機器學習--資訊資訊熵資訊增益

資訊：資訊這個概念的理解更應該把他認為是一用名稱，就比如‘雞‘(加引號意思是說這個是名稱)是用來修飾雞(沒加引號是說存在的動物即雞)，‘狗’是用來修飾狗的，但是假如在雞還未被命名為'雞'的時候，雞被命名為‘狗’，狗未被命名為‘狗’的時候，狗被命名為'雞'，那麼現在我們看到狗就會稱其為‘雞’，

【演算法】決策樹,資訊熵,資訊增益,Gini

決策樹演算法中，ID3使用資訊增益(選大的)，C4.5使用資訊增益比(選大的)，CART使用Gini(選小的)。決策樹是通過一系列規則對資料進行分類的過程。它提供一種在什麼條件下會得到什麼值的類似規則的方法。決策樹分為分類樹和迴歸樹兩種，分類樹對離散變數做決策樹，迴歸樹對連續

EMC 不確定度的計算

一、概述 1.測量不確定不定義的含義測量不確定度是與測量結果關聯的一個引數，用於表徵合理賦予被測量的值的分散性。它可以用於“不確定度”方式，也可以是一個標準偏差（或其給定的倍數）或給定置信度區間的半寬度。注1：GJB151B-2013 4.4中有如下說明：

用SIMULINK做靈敏度（SA）_不確定度（UA）分析

靈敏度分析是一個內容非常廣泛領域,本博文的目標是希望把靈敏的分析問題引入到整個系統的設計過程中。在設計中，一般對系統整體的指標是有個要求，這個指標是個統計值，那麼如何把這個統計值的置信區間在設計時分配到系統的各影響因素、系統引數的控制上去呢？經過一段時間折騰，對

通俗講清楚為什麼使用資訊熵增益比而不是資訊熵增益？

來舉個簡單的例子：資料集D（出去玩是標籤） A代表屬性，A=心情、天氣心情天氣出去玩好晴朗玩不好下雨不玩不好颳風不玩好了，現在建立決策樹，根節點是啥？第一種方式（資訊熵增益）：令A=天氣總熵S(D)=

資訊理論知識：互資訊、交叉熵、KL散度

資訊理論的基本想法是一個不太可能的事件居然發生了，要比一個非常可能的事件發生，能提供更多的資訊。訊息說：‘‘今天早上太陽升起’’ 資訊量是如此之少以至於沒有必要傳送，但一條訊息說：‘‘今天早上有日食’’ 資訊量就很豐富。我們想要通過這種基本想法來量化資訊。定義三個性質

資訊熵（夏農熵），相對熵（KL散度），交叉熵三者的對比以及吉布斯不等式

各種各樣資訊科學中，無論是通訊還是大資料處理，各種“熵”是非常重要的，因為它可以度量隨機變數不確定度，量化資訊量的大小。資訊熵(夏農熵）首先複習一下資訊熵(夏農熵），輔助我們對相對熵和交叉熵的理解。對於一個隨機變數XX,其可能的取值分別為X={x

資訊熵、交叉熵與相對熵(KL散度)的關係，還介紹了聯合資訊熵和條件熵、互資訊（資訊增益）的概念

@(關於機器學習的其他)[KL散度][資訊熵][交叉熵] 1、資訊量資訊量用一個資訊所需要的編碼長度來定義,而一個資訊的編碼長度跟其出現的概率呈負相關,因為一個短編碼的代價也是巨大的,因為會放棄所有以其為字首的編碼方式,比如字母”a”用單一個

Python計算資訊熵程式碼

#coding=utf-8 import pandas as pd import numpy as np import math data = pd.read_csv('useriddayu1.csv') df=data.loc[()] data.shape #(34250, 8) df.sha

影象資訊熵計算的OpenCV程式碼

// calculate entropy of an image double Entropy(Mat img) { // 將輸入的矩陣為影象 double temp[256]; // 清零 for(int i=0;i<256;i++) &nbs

熵、資訊量、資訊熵、交叉熵-個人小結

一、理解熵 1、首先看到這個詞會產疑問，熵是什麼？誰定義的？用來幹什麼的？為什麼機器學習會用到熵？有了這些疑問後慢慢的開始探索～複製程式碼熵，熱力學中表徵物質狀態的參量之一，用符號S表示，其物理意義是體系混亂程度的度量。克勞修斯(T.Clausius) 於1854年提出熵(entropie)的概念

機器學習-9（資訊熵的簡單介紹）

這一節介紹一下資訊熵，這個跟熱力學的熵是有區別的，所以現在讓我們忘記熱力學第二定律，我們不需要去聯想。在這裡我將按0基礎的思維來討論資訊熵到底是什麼我們先把基礎公式摘出來 H(X)=−∑xεXP(x)logP(x)) 看公式，我們已經能感受到了，這是離散型的，每個特徵值是獨立

機器學習資訊熵

位元化(Bits) 假設存在一組隨機變數X，各個值出現的概率關係如圖；現在有一組由X變數組成的序列: BACADDCBAC.....；如果現在希望將這個序列轉換為二進位制來進行網路傳輸，那麼我們得到一個得到一個這樣的序列:01001000111110010010....... 結論: 在這種情況下，我們可