1. 程式人生 > >方差、標準差、均方差、均方誤差區別總結

方差、標準差、均方差、均方誤差區別總結

參考了http://blog.csdn.net/Leyvi_Hsing/article/details/54022612

一、百度百科上方差是這樣定義的:
(variance)是在概率論和統計方差衡量隨機變數或一組資料時離散程度的度量。概率論中方差用來度量隨機變數和其期望(即均值)之間的偏離程度統計中的方差(樣本方差)各個資料分別與其平均數之差的平方的和的平均數。(由於是從具體樣本集中區,所以其各個樣本資料一定、該樣本集的平均(注意:這裡由於是單個樣本集,並不是真正的全體,也就是平均後並不是概率論中理論中的方差中的數學期望,所以只能近似於概率論方差中的數學期望),值近似於概率論中的方差)在許多實際問題中,研究方差即偏離程度有著重要意義。 

看這麼一段文字可能有些繞,那就先從公式入手, 
對於一組隨機變數或者統計資料,其期望值我們由E(X)表示,即隨機變數或統計資料的均值, 


然後對各個資料與均值的差的平方求和這裡寫圖片描述,最後對它們再求期望值就得到了方差公式。
這裡寫圖片描述 
這個公式描述了隨機變數或統計資料與均值的偏離程度。

二、方差與標準差之間的關係就比較簡單了

這裡寫圖片描述 
根號裡的內容就是我們剛提到的這裡寫圖片描述

那麼問題來了,既然有了方差來描述變數與均值的偏離程度,那又搞出來個標準差幹什麼呢? 
發現沒有,方差與我們要處理的資料的量綱是不一致的,雖然能很好的描述資料與均值的偏離程度,但是處理結果是不符合我們的直觀思維的。 
舉個例子:一個班級裡有60個學生,平均成績是70分,標準差是9,方差是81,成績服從正態分佈,那麼我們通過方差不能直觀的確定班級學生與均值到底偏離了多少分,通過標準差我們就很直觀的得到學生成績分佈在[61,79]範圍的概率為0.6826,即約等於下圖中的34.2%*2 
這裡寫圖片描述

 
三、均方差、均方誤差又是什麼? 
標準差(Standard Deviation) ,中文環境中又常稱均方差,但不同於均方誤差(mean squared error,均方誤差是各資料偏離真實值的距離平方和的平均數,也即誤差平方和的平均數,計算公式形式上接近方差,它的開方叫均方根誤差,均方根誤差才和標準差形式上接近),標準差是離均差平方和平均後的方根,用σ表示。標準差是方差的算術平方根。 
從上面定義我們可以得到以下幾點: 
1、均方差就是標準差,標準差就是均方差 
2、均方誤差不同於均方差
3、均方誤差是各資料偏離真實值的距離平方和的平均數 
舉個例子:我們要測量房間裡的溫度,很遺憾我們的溫度計精度不高,所以就需要測量5次,得到一組資料[x1,x2,x3,x4,x5],假設溫度的真實值是x,資料與真實值的誤差e=x-xi 
那麼均方誤差MSE=這裡寫圖片描述
 
總的來說,均方差是資料序列與均值的關係,而均方誤差是資料序列與真實值之間的關係,所以我們只需要搞清楚真實值和均值之間的關係就行了。