Khan公開課 統計學學習筆記 五 正態分佈
正態分佈:二項分佈極好的近似
X是隨機變數,E(X)是期望值。正態分佈(normal distribution)也稱為高斯分佈(Gaussian distribution),或者鐘形曲線(bell curve)。
(x-μ)/σ也稱為z score(注意:z score是個通用的概念,包括非正態分佈)。因此正態分佈公式也可以寫為,一眼望去,一堆2:
二項式分佈可以很好地用正太分佈近似,特別是n越大,越趨於接近。我們用Excel來對兩者進行對比,下圖是fair coin,即p=0.5的拋投情況,給出n=4和n=10的情況,可以看出n越高,曲線就越趨同。
在一般教科書給出的正態分佈中,μ=0,上面的圖向左移,呈Y軸對稱。標準正態分佈
正態分佈:概率
正態曲線是個連續的曲線,如果某個概率符合正態分佈曲線,實際上某個區間的概率為,但很多時候直接(x2-x1)f(X),如果離散值,就是P(X),當然對於雨量這種連續分佈只能說是近似,在X2-X1很小的可以。
在EXCEL中,有公式=NORMDIST(x,μ,σ,cumulative),如果cumulative選擇FALSE,就是正態函式取值,如果選擇TRUE,就是累積分佈函式(Cumulative Distribution Function),CDF(x)=,相當於EXCEL的另一函式NORMSDIST(z)。利用EXCEL,無論正太分佈的X2和X1取多少,都很容易計算在這個區間內的範圍值。
正態分佈:z score和經驗法則
其中以對稱的μ為中心,±σ範圍的概率是68.3%。也就是說z=(x-μ)/σ在範圍(-1,1)內,概率為68.3%。
也就是說z在範圍(-1,1)內,概率為68.3%。
所謂的經驗法則(Empirical Rule),也成為68-95-99.7法則,即以μ為中心,落在μ±σ的概率為68%,落在μ±2σ的概率為95%,落在μ±3σ的概率為99.7%。
偏態和峰度
正態分佈是對稱的,而偏態則不是。下面分別是negative skew和positive skew。
正態分佈的Kurtosis(峰度)為0,有些分佈突出呈尖形,有些較扁呈圓盾形狀,用Kurtosic(峰度)表示,如下,其中黑線為正態分佈。