正態分佈-置信區間計算

阿新 • • 發佈：2020-07-15

統計學有兩大主要分支，分別是描述性統計學和推斷統計學。描述性統計學用於描述和概括資料的特徵以及繪製各類統計圖表。總體資料，往往因為資料量太大而難以被獲取，所以就有了通過較小的樣本資料推測總體特性的推斷統計學。值得一提的是現今火熱的“大資料”一詞並不僅僅是指資料量大，在《大資料時代》一書中作者舍恩伯格強調“大資料”不是隨機樣本，而是所有資料，即總體，這與傳統的統計研究方法是有很大區別的。

推斷統計學的一個研究方向就是用樣本資料估算總體的未知引數，稱之為引數估計。如果是用一個數值進行估計，則稱為點估計；如果估計時給出的是一個很高可信度的區間範圍，則稱為區間估計

。

本文先介紹了抽樣分佈和中心極限定理，並用蒙特卡洛方法進行模擬；然後引入置信區間的概念，並將之用於分析BRFSS資料中的BMI指數上。

首先依舊是匯入相關Python模組和資料，其中brfss是專門用於讀取和清理美國行為風險因素監控BRFSS調研資料的模組。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import brfss  # 該模組用於處理BRFSS資料

%config InlineBackend.figure_format = 'retina'

df = brfss.ReadBrfss()  # 讀取BRFSS資料

這裡主要關注反應胖瘦程度的BMI指數，並將這一資料存入bmi變數中，其資料量有40萬之多。

bmi = df.bmi.dropna()  # 取資料中的bmi列，並去除缺失值
len(bmi)

中心極限定理

如果我們將上述40萬多份的BMI資料看成是總體，然後從中隨機抽取n個數據組成一份樣本，並計算該樣本的均值。重複這一過程1000次，我們就得到了1000個樣本的均值分佈，即抽樣分佈。

抽樣分佈滿足中心極限定理，即在樣本量n越來越大時，均值的抽樣分佈將越來越接近正態分佈，該分佈的均值等於總體的均值；標準差，在這裡也稱為標準誤差SE滿足公式：

這裡使用蒙特卡洛模擬的方法，在40萬BMI資料中隨機抽取n個數計算均值，並重復1000次，組成抽樣分佈。以下的sampling_distribution()

函式用於實現這一模擬過程，並繪製抽樣分佈的直方圖和ECDF圖。

def sampling_distribution(data, sample_size=20, bins=40):
    '''抽樣分佈模擬，輸出均值、標準差以及直方圖、ECDF圖'''
    
    # 隨機抽樣
    sampling = [np.mean(np.random.choice(data, size=sample_size, replace=False)) for _ in range(1000)]  
    
    # 輸出總體和抽樣分佈的均值、標準差
    mu = np.mean(data)
    se = np.std(data) / np.sqrt(sample_size)
    print('mean of sample means: %.2f' % np.mean(sampling))
    print('population means: %.2f' % mu)
    print('Standard deviation of sample means: %.2f' % np.std(sampling))
    print('Standard Error: %.2f' % se)

    # 繪製抽樣分佈的直方圖、ECDF圖
    fig = plt.figure(figsize=(16,5))
    p1 = fig.add_subplot(121)
    plt.hist(sampling, bins=bins, rwidth=0.9)
    plt.xlabel('sampling means')
    plt.ylabel('counts')
    p2 = fig.add_subplot(122)
    plot_ecdf(sampling, xlabel='sampling means', label='sampling ')
    sample = np.random.normal(mu, se, size=10000)
    plot_ecdf(sample, xlabel='sampling means', label='normal distribution')
    plt.show()
    
def ecdf(data):
    '''計算ECDF'''
    x = np.sort(data)
    y = np.arange(1, len(x)+1) / len(x)
    return (x,y)

def plot_ecdf(data, xlabel=None , ylabel='ECDF', label=None):
    '''繪製ECDF圖'''
    x, y = ecdf(data)
    _ = plt.plot(x, y, marker='.', markersize=3, linestyle='none', label=label)
    _ = plt.legend(markerscale=4)
    _ = plt.xlabel(xlabel)
    _ = plt.ylabel(ylabel)
    plt.margins(0.02)

下面我們將樣本量n分別取為10、20、100，進行三次模擬。

sampling_distribution(bmi, sample_size=10)

mean of sample means: 27.95
population means: 28.04
Standard deviation of sample means: 2.04
Standard Error: 2.10

樣本量為10的抽樣分佈

sampling_distribution(bmi, sample_size=20)

mean of sample means: 28.11
population means: 28.04
Standard deviation of sample means: 1.50
Standard Error: 1.49

樣本量為20的抽樣分佈

sampling_distribution(bmi, sample_size=100)

mean of sample means: 28.05
population means: 28.04
Standard deviation of sample means: 0.69
Standard Error: 0.67

樣本量為100的抽樣分佈

觀察上面的輸出結果和圖形，我們發現隨著樣本量的遞增，抽樣分佈越來越靠近正態分佈，其均值和標準差也越來越符合中心極限定理中給出的關係。

一般當n大於等於30時，樣本均值的抽樣分佈近似為正態分佈。此時我們可以用樣本的均值來估計總體的均值，這就是點估計的一種最簡單的方式。但從上述分佈也可以看出，樣本均值其實是以一定概率在總體均值附近浮動的，所以這就有了後面將要講的置信區間。

關於中心極限定理，還有一點需要強調的是，無論變數原來的分佈是什麼樣的，其均值的抽樣分佈在n足夠大時都會接近正態分佈。比如我們研究BRFSS資料中人們每週運動的總時間（單位：分鐘），大部分人每週運動的時間少於500分鐘，而極少數人能達到3000分鐘，其直方圖反應資料大部分集中在左側，而右側有一條長長的尾巴。

exemin = df[df.exemin != 0].exemin.dropna()   # 提取鍛鍊時間資料，丟棄0或者缺失值
plt.hist(exemin,bins=40, range=(0,3000), rwidth=0.9)  # 繪製直方圖
plt.xlabel('exercise mins per week')
plt.ylabel('counts')
plt.show()

人們每週運動時間的分佈

顯然這一資料分佈並不滿足正態分佈，但是我們採用上述相同的方法模擬其樣本均值的抽樣分佈，在樣本量n為1000時，抽樣分佈與正態分佈符合的非常好。可見中心極限定理並不要求變數原來分佈的樣子，這也正是其魅力所在。

sampling_distribution(exemin, sample_size=1000)

mean of sample means: 499.54
population means: 499.37
Standard deviation of sample means: 23.60
Standard Error: 23.75

運動時間均值的抽樣分佈

正態分佈的特性

既然中心極限定理中涉及了正態分佈，我們就來看看其均值和標準差的一些性質。這裡匯入scipy的統計模組，使用scipy.stats.norm()模擬標準正態分佈，即均值為0，標準差為1。使用norm.pdf()計算概率密度，並繪製概率密度函式（PDF）圖。

import scipy.stats
norm = scipy.stats.norm()  # 標準正態分佈

x = np.arange(-5, 5, 0.02)
y = norm.pdf(x)  # 概率密度
plt.plot(x,y)
plt.axvline(x=0,ymax=0.95, linestyle='--', color='red', alpha=0.5)
plt.axvline(x=1,ymax=0.59, linestyle='--', color='green')
plt.axvline(x=-1,ymax=0.59, linestyle='--', color='green')
plt.axvline(x=2,ymax=0.16, linestyle='--', color='blue')
plt.axvline(x=-2,ymax=0.16, linestyle='--', color='blue')
plt.margins(0.02)
plt.show()

標準正態分佈

PDF圖中曲線下的面積代表了概率，使用norm.cdf()可計算這部分面積，即累積概率分佈。於是我們就可以得到變數距離均值在1個標準差範圍內的概率為0.68，2個標準差範圍內的概率是0.95，3個標準差範圍內的概率是0.997。可見在正態分佈中，資料主要集中在3個標準差之內。

print('1 sigma : %.3f' % (norm.cdf(1) - norm.cdf(-1)))
print('2 sigma : %.3f' % (norm.cdf(2) - norm.cdf(-2)))
print('3 sigma : %.3f' % (norm.cdf(3) - norm.cdf(-3)))

1 sigma : 0.683
2 sigma : 0.954
3 sigma : 0.997

反過來，我們也可以通過概率來求變數分佈的區間，這裡使用norm.interval()，比如95%的情況下變數分佈在-1.96到1.96之間，99%的情況下分佈在-2.58到2.58之間。

norm.interval(0.95)

(-1.959963984540054, 1.959963984540054)

norm.interval(0.99)

(-2.5758293035489004, 2.5758293035489004)

置信區間

在能夠計算正態分佈中一定概率下對應的變數區間後，我們再回到之前用樣本均值估計總體均值時遺留的問題，即樣本的均值圍繞總體均值在一定範圍內浮動的。我們需要估算總體均值在多大的概率下落在抽樣的隨機區間內，這就是置信區間。

我們仍然將40多萬的bmi資料當成是總體，然後從中隨機抽取樣本量為100的資料，根據中心極限定理繪製抽樣分佈圖如下。

sample_size = 100    

# 計算總體的均值和標準差
mu = np.mean(bmi)
se = np.std(bmi) / np.sqrt(sample_size)
# 繪製正態分佈的PDF
norm = scipy.stats.norm(mu, se)
x = np.arange(26, 31, 0.01)
y = norm.pdf(x)
plt.plot(x,y)

# 繪製抽樣分佈的直方圖
sample_size = 100    
sampling = [np.mean(np.random.choice(bmi, size=sample_size, replace=False)) for _ in range(1000)]
plt.hist(sampling, bins=40, rwidth=0.9, normed=True, alpha=0.7)

plt.show()

n=100抽樣分佈

根據正態分佈的性質，在95%的概率下，均值分佈區間是(26.74, 29.35)。也就是說，在樣本量為100時，我們有95%的信心相信總體均值落在26.74和29.35之間，這就是95%的置信區間。同理，99%的置信區間是(26.33, 29.76)。注意這是在大樣本量的情況下，我們才能使用正態分佈，而如果樣本量n小於30，則需要採用t分佈，此處就不展開了。

norm.interval(0.95)

(26.738141245959351, 29.346706751112283)

norm.interval(0.99)

(26.328305902131977, 29.756542094939658)

區間估計的應用

回到本系列文章一直在探索的一個問題，即比較富人和普通人的BMI指數。此時，bmi資料不再當做總體看待，而是作為調查的樣本，總體是BRFSS資料針對的全體美國人。首先將bmi資料按照收入等級分為兩組，即富人bmi資料和普通人bmi資料。

df2 = df[['bmi', 'income']].dropna()  # 提取資料中bmi和收入水平income這兩列，並忽略缺失值
bmi_rich = df2[df2.income == 8].bmi   # 收入水平為8級的，認為是富人
bmi_ord = df2[df2.income != 8].bmi    # 收入水平為1-7級的，認為是普通人群

以下定義了mean_ci()函式，根據置信區間的計算公式，計算95%置信度下均值所在的區間。

def mean_ci(data):
    '''給定樣本資料，計算均值95%的置信區間'''
    
    sample_size = len(data)
    std = np.std(data, ddof=1)  # 估算總體的標準差
    se = std / np.sqrt(sample_size)  # 計算標準誤差   
    point_estimate = np.mean(data)  
    z_score = scipy.stats.norm.isf(0.025)  # 置信度95%
    confidence_interval = (point_estimate - z_score * se, point_estimate + z_score * se)

    return confidence_interval

於是得到富人bmi95%的置信區間為(27.42, 27.49), 普通人bmi95%的置信區間為(28.51, 28.57)。這兩個區間間隔的還比較遠，數值上差不多有1這麼多。所以我們可以比較有信心的得出富人更瘦的結論。

mean_ci(bmi_rich)

(27.415906122294761, 27.485560606043915)

mean_ci(bmi_ord)

(28.509003170593907, 28.565637279855423)

但要注意了，以上之所以能得到這麼肯定的結論，源於使用的樣本資料量非常大，這大大縮小了置信區間的範圍（這可以從中心極限定理中標準誤差的公式看出）。現在讓我們使用前500個數據，看看在樣本較少時會發生什麼情況。

mean_ci(bmi_rich[:500])

(27.849838839563304, 28.791561160436636)

mean_ci(bmi_ord[:500])

(28.200546441671069, 29.303493558328935)

此時富人bmi95%的置信區間為(27.85, 28.79)，而普通人bmi95%的置信區間為(28.20, 29.30)，很明顯這兩個區間都變大了。儘管富人的bmi指數仍有相對較小的趨勢，但是這兩個區間有部分重合，這時我們就無法得出非常肯定的結論了。可見樣本量在做判斷時起著非常重要的作用，樣本越大，判斷越準確，這也是與我們常識相符的。

小結

在這一篇中，我們瞭解了抽樣分佈的概念，中心極限定理的含義，正態分佈的概率分佈，最重要的是使用置信區間的計算方法，通過樣本資料估算總體的均值範圍，至此我們進入了推斷統計學的領域。

針對富人是否更瘦這個問題上，雖然使用了置信區間得出了較肯定的結論，但是仍然沒有對富人更瘦這個假設做出明確的判斷。在下一篇中我們將會講到推斷統計學的另一個領域：假設檢驗，即對引數的假設值進行決策，屆時我們將和上述問題來個了斷。

原文：https://www.jianshu.com/p/7e556f17021a

正態分佈-置信區間計算

中心極限定理

正態分佈的特性

置信區間

區間估計的應用

小結

正態分佈-置信區間計算

Python求解正態分佈置信區間教程

python 實現檢驗33品種資料是否是正態分佈

使用Python實現正態分佈、正態分佈取樣

Python求正態分佈曲線下面積例項

R語言通過伽瑪與對數正態分佈假設下的廣義線性模型對大額索賠進行評估預測

python 如何判斷一組資料是否符合正態分佈

python 判斷一組資料是否符合正態分佈

模型01預測值box-cox轉換為正態分佈評分

python 生成正態分佈資料,並繪圖和解析

利用python繪製正態分佈曲線

tensorflow random_normal()函式生成隨機的正態分佈隨機陣列

Python：numpy生成正態分佈的平均數

談談統計學正態分佈閾值原理在資料分析工作中的運用

學習如何用平均分佈隨機數生成正態分佈隨機數

拓端tecdat|R語言貝葉斯Poisson泊松-正態分佈模型分析職業足球比賽進球數

20211006 多種資料分析正態分佈檢驗

多元統計分析02：多元正態分佈的定義和性質

多元統計分析06：多元正態分佈的假設檢驗(2)

拓端tecdat|Matlab正態分佈、歷史模擬法、加權移動平均線 EWMA估計風險價值VaR和回測Backtest標準普爾指數 S&P500時間序列

正態分佈-置信區間計算

中心極限定理

正態分佈的特性

置信區間

區間估計的應用

小結

相關推薦