1. 程式人生 > >置信度與置信區間

置信度與置信區間

置信區間或稱置信間距,是指在某一置信度時, 總體引數所在的 區域距離或區域長度。   置信度又稱置信係數,置信水平、可靠度等,表明了區間估計的可靠性。用符號1-α表示。   顯著性水平:代表是在一次試驗中小概率事物發生的可能性大小。用符號α表示。是指估計 總體引數落在某一區間時,可能犯錯誤的概率,       根據中心極限定理,若總體服從正態分佈N(u,v),則樣本大小為n的抽樣的均值 X_bar 服從N(u,v/n), 也就是說樣本均值本身也是一個隨機變數,這個隨機變數圍繞u, 即圍繞總體的均值(未知)分佈,方差為v/n.  樣本均值本身就具有很大的不確定性,因此如果用樣本均值來估計總體的真實期望u, 除非樣本大小n很大,否則準確性難以評估。     因此我們要用到置信區間。     那麼是不是說某個樣本算出來的置信區間一定是好的置信區間呢,當然不是,我們說他有95%的概率是好的, 好的意思是並不是說總體均值有95%概率落在該區間裡面,而是說假設我們抽樣無窮多次,那麼95%的抽樣算出來的置信區間包含真實均值(好的),另有5%的區間不包含(當然實際中置信區間沒有好壞之說,只是做一個比喻)。     哪些實驗結果屬於那95%是隨機的。因此我們自然也不確定某一次具體的抽樣算出來的置信區間是否一定包含真實值,但在實際中我們接受它,認為它包含真實值,在這種情況下, 我們犯錯的概率僅為5%(我們認為包含但實際上不包含),我們接受這個犯錯概率。換句話說,某一次抽樣試驗得到的置信區間犯錯(不包含真實值)的概率僅為5%,符合我們預先設定的底線(顯著水平,也是容許犯一類錯誤的底線a=5%)。這樣理解可能會比簡單的一句我們確定這個算出來的樣本置信區間有95%的可能性包含總體均值更具體吧。一句話總結,統計充滿了不確定性,不要奢望100%確定,要容許犯錯的可能。