統計科學之聊聊置信度與置信區間
今天這篇聊聊統計學裡面的置信度和置信區間。
1.點估計
在講置信度和置信區間之前先講講點估計,那什麼是點估計呢?給你舉兩個例子你就知道了。
現在你想要知道一個學校學生的身高情況,你可以把所有的學生測量一遍,然後得到答案,這種方法可以,而且得到的資料肯定是最真實的,但是這裡有一個問題,什麼問題呢?就是如果學生人數太多,全部測量的話工作量太大了,那怎麼辦呢?那就隨機挑選一部分學生,然後測量這一部分學生的身高,得到一個值(一般用平均值),用這一部分的平均值來估計整體學生的身高情況,我們把這種估計方式稱為點估計
。
現在你要看一下某流水線上iphone手機的不合格率,怎麼看呢?最笨的方法還是把所有的手機全部開機試用,統計不合格手機的佔比,這樣可以嗎?很明顯是不可以的。那怎麼才能知道這一條流水線的質量,那就是抽樣,抽取整條流水線上的部分手機進行檢驗,會得到一個合格率,然後用這個合格率去估計整條流水線的合格率,同樣這種方式也是點估計
那現在是不是大概理解點估計的意思了,就是用隨機抽樣的樣本的計算出來的指標值去估計整體指標情況。常用的點估計方法有如下:
用樣本均值估計總體均值
用樣本方差估計總體方差
用樣本的分位數估計總體分位數
用樣本的中位數估計總體中位數
2.區間估計
以前上學的時候經常會考試,考完試以後老愛去估分,一般人估分不太可能直接估一個具體的數,肯定都是估一個大概的數,啥叫大概的數呢?就是比如高考分數預計600左右,這個左右其實就是一個區間,還有平常很多食品包裝袋上會寫±0.5KG,表示啥意思呢?就是要麼多給了你0.5KG,要麼少給了你0.5KG。我們把這種用一個範圍來對一個事情進行估計的方式稱為區間估計,得出來的區間就是置信區間
3.置信度
你是估算出一個區間了,但是你估算的準不準呢?準確度又有多大呢?我們把這個估算的區間的準確度(可信度)稱為置信度。比如說我有95%的把握估計我高考分數是600-650,這裡的置信區間就是[600,650],置信度就是95%。
一般置信度和置信區間是同向的,啥意思呢?就是置信度和置信區間一般是相同趨勢。當置信度很高時,置信區間也會很大;當置信區間很大時,置信度也會很高。
比如我有100%的把握估計我高考分數是0-750,這裡的置信區間是[0,750]包含了所有分數的可能,那置信度肯定是100%哈。
4.如何計算置信區間
那麼我們該如何通過部分樣本來計算總體的一個置信區間呢?主要有下面幾個步驟:
step1:首先明確要求解的問題。就是你要預估什麼?不管是全校學生身高還是學生成績。
step2:求抽樣樣本的平均值與標準誤差(standarderror)。注意標準誤差與標準差(standarddeviation)不一樣(標準差反映了整個樣本對樣本平均數的離散程度,標準誤差反映樣本平均數對總體平均數的變異程度)。
標準差等於方差開根號。
標準誤差等於樣本標準差除n的開根號。
step3:確定需要的置信水平。比如常用的95%的置信水平,就是我有95%的把握估算對,這樣可以保證樣本的均值會落在總體平均值2個標準差範圍內。
step4:查z表,求z值。什麼是z表呢?是不是已經忘記了,z表是標準正態分佈表,是用來反映標準分與概率值之間的關係表,也就是通過標準分能查到概率值,通過概率值也可以反查標準分。
現在我們知道了95%的置信水平對應的概率值是2.5%,只需要通過標準正態分佈表查出2.5%概率對應的標準分即可,也就是z值。
常用置信水平與標準分z值的對應表
置信水平 | Z值 |
---|---|
90% | 1.64 |
95% | 1.96 |
99% | 2.58 |
step5:計算置信區間
a = 樣本均值 - z*標準誤差
b = 樣本均值 + z*標準誤差
最後置信區間就為[a,b]。