1. 程式人生 > 其它 >單個正態總體均值的區間估計_重溫統計學--引數估計

單個正態總體均值的區間估計_重溫統計學--引數估計

技術標籤:單個正態總體均值的區間估計

e1f3b54d09a09069a4f5071e432a008c.png

小文 | 公眾號 小文的資料之旅

前幾期說到統計學最大的作用是得樣本而知總體,利用樣本準確地預測總體,並以一定的方式說明預測結果的可靠程度。在統計學中,這預測的過程稱為引數估計,通過置信水平來說明預測結果的可靠程度。

那麼為什麼可以用樣本估計總體呢?在引數估計的過程中又要注意什麼呢?首先樣本來自總體,抽樣要儘量保證無偏抽樣,無偏樣本的分佈形狀與總體樣本相似(即估計量抽樣分佈的數學期望等於總體引數)。另外大數法則告訴我們,樣本量越大,樣本的統計量越接近總體的真值,最為極端的情況就是樣本量等於總體量,樣本的統計量還能不等於總體的引數嗎?

引數估計的方法主要有兩種,分別是點估計和區間估計

點估計就是用樣本統計量的某個取值直接作為總體引數的估計值,那麼從總體中多次抽樣,每個樣本都有一個點估計量,那我們怎麼知道哪個點估計量更接近總體的真值呢?

於是就出現了區間估計。區間估計是點估計的基礎上,給出總體引數估計的一個區間範圍,該區間通常由樣本統計量加減估計誤差得到

這個區間範圍也稱為置信區間,那麼這個區間範圍多大比較合理呢?一般我們會通過置信水平,即置信區間中包含總體引數真值的次數所佔的比例來衡量。比如,最為常用的95%置信水平,可以解釋為由100個樣本構造的總體引數的100個置信區間中,有95%的區間包含總體引數真值。

知道了這些基礎的概念之後,又該如何通過樣本對總體進行引數估計呢?


1、點估計

常用的統計量包括有均值、方差、變異係數、偏度和峰度等。根據已知情況,樣本均值是我們能為總體均值做出的最好的估計,樣本均值被稱為總體均值的點估計量。同理,樣本方差也被稱為總體方差的點估計量。

1.1 點估計的步驟:

(1)找出特定樣本大小相同的所有樣本

(2)觀察所有樣本統計量形成的分佈,然後求出統計量的期望和方差

(3)得到分佈後,利用分佈求出概率

1.2 樣本均值的抽樣分佈

如果考慮同一個總體中所有大小為n的可能樣本,然後用這些樣本的均值形成分佈,則該分佈為均值的抽樣分佈,我們用

表示樣本均值隨機變數。

的期望:

的方差:

  • 如果總體服從正態分佈 ,則樣本均值隨機變數也服從 正態分佈
  • 如果總體不服從正態分佈,但n>30,根據中心極限定理,則樣本均值隨機變數的分佈近似正態分佈;
  • 如果總體不服從正態分佈且n<30,則樣本均值隨機變數的分佈根據總體分佈的不同而不同,比如總體服從二項分佈,樣本均值也服從二項分佈。

1.3 樣本比例的抽樣分佈

從同一個總體中取得的所有大小為n的可能樣本,由這些樣本的比例形成一個分佈,這就是比例的抽樣分佈,用

代表樣本比例隨機變數。 比例一般與二項分佈有關

的期望:

的方差:

  • 如果n>30,根據中心極限定理,則樣本比例符合正態分佈,即 ,因為是離散資料,使用這個公式時 需要連續性修正 ,具體見重溫統計學--概率與概率分佈

點估計量是我們有可能給出的總體統計量的最佳估計,但是依然無法100%地代表總體,原因很簡單,因為我們用的是樣本,而不是總體本身,所以我們無法判斷哪個估計量最好,這時候就需要區間估計。


2、區間估計

2.1 區間估計四步驟:

(1)選擇總體統計量(均值、方差、比例)

(2)求出其抽樣分佈

(3)決定置信水平(5%、1%)

(4)求出置信上下限(Z分佈、t分佈)

因為區間估計是在點估計的基礎上加減估計誤差得到,因此前兩步的做法一樣,然後選擇置信水平,置信水平一般會選擇5%,更嚴格些會選擇1%。區間估計一般表示為:

因此,在區間估計中誤差範圍就是係數統計量的標準差,因此我們可以根據可接受的誤差範圍來確定抽樣的數量。設可接受的誤差範圍為E,那麼

2.2 一個總體的均值區間估計:

  • 如果總體服從正態分佈且總體方差已知,則置信區間為
  • 如果總體不服從正態分佈,但n>30且總體方差已知,則置信區間為
  • 不管總體是否服從正態分佈,如果總體方差未知,樣本方差已知且n>30,則置信區間為
  • 總體服從正態分佈,如果總體方差未知,樣本方差已知且n<30,則置信區間為

2.3 一個總體的比例區間估計:

  • 如果總體服從二項分佈且n>30,則置信區間為

2.4 兩個總體的均值之差的區間估計:

如果兩個樣本是從總體中獨立抽取的,即一個樣本中的元素與另一個樣本中的元素相互獨立,那麼兩個樣本均值之差的期望為兩個總體均值之差,方差的期望為兩個總體方差之和,具體見重溫統計學--概率與概率分佈。

樣本均值之差的期望:

樣本均值之差的方差:

  • 如果總體服從正態分佈且總體方差已知,則置信區間為
  • 如果總體不服從正態分佈,但n>30且總體方差已知,則置信區間為
  • 不管總體是否服從正態分佈,如果總體方差未知,樣本方差已知且n>30,則置信區間為
  • 總體服從正態分佈,如果總體方差未知,樣本方差已知且n<30,則置信區間為

2.5 兩個總體的比例之差的區間估計:

  • 如果總體服從二項分佈且n>30,則置信區間為

c為Z分佈係數,t(v)為t分佈係數,常用的置信水平相對應的c值為:

  • 90%置信水平,c=1.64
  • 95%置信水平,c=1.96
  • 99%置信水平,c=2.58

3、 實踐部分:

某企業生產的袋裝食品採用自動打包機包裝,每袋標準重量為100克,現從某天生產的一批產品中按重複抽樣隨機抽取50包進行檢查,測得每包重量如下:

  • 96~98g:2包
  • 98~100g:3包
  • 100~102g:34包
  • 102~104g:7包
  • 104~106g:4包

已知食品每包的重量服從正態分佈,

(1)求確定該種食品平均重量的95%的置信區間。

(2)如果規定食品重量低於100g屬於不合格,確定該批食品合格率的95%的置信區間。

答:

  • 推理步驟:

(1)因為總體服從正態分佈,總體方差未知且樣本數量大於30,因此樣本均值也服從正態分佈,

其中樣本均值:

樣本方差:

樣本均值的期望:

樣本均值的方差:

因此,樣本均值服從N(101.32,0.053)的正態分佈,轉為化標準正態分佈:

現在需要求樣本均值的95%的置信區間,查表可知95%的置信區間

,因此

最終求得樣本均值的95%的置信區間為(100.87,101.77)。

  • 公式法: 因為總體服從正態分佈,總體方差未知且樣本數量大於30,因此置信區間為 ,代入,得到樣本均值的95%的置信區間為(100.87,101.77)。
  • python實現:
import pandas as pd 
import numpy as np
x1 = [97]*2
x2 = [99]*3
x3 = [101]*34
x4 = [103]*7
x5 = [105]*4
data = x1+x2+x3+x4+x5

#定義一個函式進行區間估計
def get_result(data=data,c=None,t=None,sigma = None,num = 'n'):
"""data:資料
   c:Z分佈係數
   t:t分佈係數
   sigma:總體方差
   num:樣本量
"""
    data_mean = np.mean(data)
    data_std = np.std(data)
    if sigma == None and num>=30:
        print(data_mean-c*data_std/np.sqrt(num),data_mean+c*data_std/np.sqrt(num))
    elif sigma == None and num<30:
        print(data_mean-t*data_std/np.sqrt(num),data_mean+t*data_std/np.sqrt(num))
    elif sigma != None and num>= 30:
        print(data_mean-c*sigma/np.sqrt(num),data_mean+c*sigma/np.sqrt(num))
    else:
        print(data_mean-t*sigma/np.sqrt(num),data_mean+t*sigma/np.sqrt(num))

get_result(data,c = 1.96,num = 50)
100.87154103509909 101.7684589649009

(2)低於100g屬於不合格,因此不合格率為10%,合格率為90%,這是一個屬於總體比例區間估計的問題,因此根據公式

,可得該批食品合格率的95%的置信區間為(0.82,0.98)

end

小文的資料之旅

戳右上角「+關注」獲取最新share

如果喜歡,請分享or點贊