概率分佈之間的距離度量以及python實現(三)

阿新 • • 發佈：2019-01-13

概率分佈之間的距離，顧名思義，度量兩組樣本分佈之間的距離。

1、卡方檢驗

統計學上的 $χ 2 統計量，由於它最初是由英國統計學家Karl Pearson在1900年首次提出的，因此也稱之為Pearson χ 2 ，其計算公式為$

$\chi^2=\sum \frac{(A-E)^2}{E}=\sum_{i=1}^k \frac{(A_i-E_i)^2}{E_i}=\sum_{i=1}^k \frac{(A_i-np_i)^2}{np_i}$ 　　(i=1，2，3，…，k)

　　其中， $A i 為i水平的觀察頻數， E i 為i水平的期望頻數，n為總頻數， p i 為i水平的期望頻率。i水平的期望頻數 E i 等於總頻數n\timesi水平的期望概率 p i 。當n比較大時， χ 2 統計量近似服從k-1(計算 E i 時用到的引數個數)個自由度的卡方分佈。$

卡方檢驗經常用來檢驗某一種觀測分佈是不是符合某一類典型的理論分佈（如二項分佈，正態分佈等)。 $觀察頻數與期望頻數越接近，兩者之間的差異越小， χ 2$

值越小；如果兩個分佈完全一致，

χ 2 值為0； 反之，觀察頻數與期望頻數差別越大，兩者之間的差異越大， χ 2 值越大。

換言之，大的 χ 2 值表明觀察頻數遠離期望頻數，即表明遠離假設。小的 χ 2 值表明觀察頻數接近期望頻數，接近假設。因此， χ 2 是觀察頻數與期望頻數之間距離的一種度量指標，也是假設成立與否的度量指標。如果 χ 2 值“小”，研究者就傾向於不拒絕 H 0 ；如果 χ 2 值大，就傾向於拒絕 H 0 。至於 χ 2 在每個具體研究中究竟要大到什麼程度才能拒絕 H 0 ，則要藉助於卡方分佈求出所對應的P值來確定（通常取p=0.05)。

$在python中的實現：$

# -*- coding: utf-8 -*-
'''
卡方公式(o-e)^2 / e
期望值和收集到資料不能低於5，o(observed)觀察到的資料，e（expected）表示期望的資料
(o-e)平方，最後除以期望的資料e
 
'''
 
import numpy as np
from scipy.stats import chisquare        
list_observe=np.array([30,14,34,45,57,20])
list_expect=np.array([20,20,30,40,60,30])
 
#方法一:根據公式求解（最後根據c1的值去查表判斷）
c1=np.sum(np.square(list_observe-list_expect)/list_expect)

#方法二：使用scipy庫來求解
c2,p=chisquare(f_obs=list_observe, f_exp=list_expect)
 
'''
返回NAN，無窮小
''' 
if p>0.05 or p=="nan":
   print("H0 win,there is no difference")
else:
   print("H1 win,there is difference")

2、交叉熵

通常，一個信源傳送出什麼符號是不確定的，衡量它的不確定性可以根據其出現的概率來度量。概率大，出現機會多，不確定性小；反之就大。

不確定性函式f必須滿足兩個條件：

1）是概率P的單調遞降函式；

2）兩個獨立符號所產生的不確定性應等於各自不確定性之和，即f（P₁，P₂）=f（P₁）+f（P₂），這稱為可加性。

同時滿足這兩個條件的函式f是對數函式，即

在信源中，考慮的不是某一單個符號發生的不確定性，而是要考慮這個信源所有可能發生情況的平均不確定性。若信源符號有n種取值：U₁…U_i…U_n，對應概率為：P₁…Pi…P_n，且各種符號的出現彼此獨立。這時，信源的平均不確定性應當為單個符號不確定性-logP_i的統計平均值（E），可稱為資訊熵，即

假設現在有一個樣本集中兩個概率分佈p,q，其中p為真實分佈，q為非真實分佈。假如，按照真實分佈p來衡量識別一個樣本所需要的編碼長度的期望為： H(p)=

但是，如果採用錯誤的分佈q來表示來自真實分佈p的平均編碼長度，則應該是： H(p,q)=

我們稱H(p)為資訊熵，稱H(p,q)為交叉熵。

交叉熵在CNN分類中經常用到，用來作為預測值和真實標籤值的距離度量。經過卷積操作後，最後一層出來的特徵經過softmax函式後會變成一個概率向量，我們可以看作為是概率分佈q, 而真實標籤我們可以看作是概率分佈p, 因此真實分佈p和預測分佈q的交叉熵就是我們要求的loss損失值，即

在python中的實現：

import numpy as np
import tensorflow as tf
 
fea=np.asarray([6.5,4.2,7.4,3.5],np.float32)
label=np.array([1,0,0,0])

#方法一：根據公式求解
def softmax(x):
    return np.exp(x)/np.sum(np.exp(x),axis=0)
loss1=-np.sum(label*np.log(softmax(fea)))

#方法二：呼叫tensorflow深度學習框架求解
sess=tf.Session()
logits=tf.Variable(fea)
labels=tf.Variable(label)
sess.run(tf.global_variables_initializer())
loss2=sess.run(tf.losses.softmax_cross_entropy(labels,logits))
sess.close()

3、相對熵(relative entropy)

又稱為KL散度（Kullback–Leibler divergence，簡稱KLD），資訊散度（information divergence），資訊增益（information gain）。

相對熵是交叉熵與資訊熵的差值。即

相對熵=交叉熵-資訊熵

KL(p||q)=H(p,q)-H(p)

表示用分佈q模擬真實分佈p相比用p模擬p，所需的額外資訊。

相對熵（KL散度）有兩個主要的性質。如下

（1）儘管 KL 散度從直觀上是個度量或距離函式，但它並不是一個真正的度量或者距離，因為它不具有對稱性，即

(2)相對熵具有非負性

總結一下：

資訊熵公式：

交叉熵公式：

相對熵公式：

三者的關係：

在python中的實現：

import numpy as np
import scipy.stats
 
p=np.asarray([0.65,0.25,0.07,0.03])
q=np.array([0.6,0.25,0.1,0.05])

#方法一：根據公式求解
kl1=np.sum(p*np.log(p/q))

#方法二：呼叫scipy包求解
kl2=scipy.stats.entropy(p, q)

4、js散度（Jensen-Shannon）

因為kl散度不具對稱性，因此js散度在kl散度的基礎上進行了改進：

現有兩個分佈p1和p2，

在python中的實現：

import numpy as np
import scipy.stats
 
p=np.asarray([0.65,0.25,0.07,0.03])
q=np.array([0.6,0.25,0.1,0.05])

M=(p+q)/2

#方法一：根據公式求解
js1=0.5*np.sum(p*np.log(p/M))+0.5*np.sum(q*np.log(q/M))

#方法二：呼叫scipy包求解
js2=0.5*scipy.stats.entropy(p, M)+0.5*scipy.stats.entropy(q, M)

概率分佈之間的距離度量以及python實現(三)

概率分佈之間的距離度量以及python實現(三)

概率分佈之間的距離度量以及python實現

概率分佈之間的距離度量以及python實現(四)

距離度量以及python實現(二)

距離度量以及python實現(一)

距離度量與python實現

神經網路學習（4）————自組織特徵對映神經網路（SOM）以及python實現

神經網路學習（3）————BP神經網路以及python實現

神經網路學習（2）————線性神經網路以及python實現

文字相似度bm25演算法的原理以及Python實現(jupyter notebook)

決策樹（ID3 C4,5 減枝 CART演算法）以及Python實現

PCA演算法的數學原理以及Python實現

SVM引數引數介紹以及python實現GA對SVM引數的優化

RC4原理以及python實現

分類——樸素貝葉斯分類器以及Python實現

NG機器學習總結-（四）邏輯迴歸以及python實現

機器學習演算法之邏輯迴歸以及python實現

NG機器學習總結-（三）線性迴歸以及python實現

聚類——譜聚類演算法以及Python實現

聚類——MeanShift演算法以及Python實現

概率分佈之間的距離度量以及python實現(三)

相關推薦