1. 程式人生 > 實用技巧 >【資料分析師 Level 1 】3.抽樣分佈及引數估計

【資料分析師 Level 1 】3.抽樣分佈及引數估計

【資料分析師 Level 1 】3.抽樣分佈及引數估計

抽樣分佈及引數估計

1.隨機的基本概念

隨機實驗

隨機實驗是概率論的一個基本概念。概括的講,在概率論中把符合下面三個特點的試驗叫做隨機試驗

  • 可以在相同的條件下重複的進行
  • 每次試驗的可能結果不止一個,並且能事先明確試驗的所有可能結果
  • 進行一次試驗之前不能確定哪一個結果會出現

隨機事件

在概率論中,隨機事件(或簡稱事件)指的是一個被賦予機率的事物的集合,也就是樣本空間中的一個子集。簡單來說,在一次隨機試驗中,某個特定時間可能會出現也可能不會出現;但是當試驗次數增多,我們可以觀察到某種規律性的結果,就是隨機事件。

隨機變數

設隨機試驗的樣本空間

S=e,X=X(e)S = {e},X=X(e)S=e,X=X(e)

是定義在樣本空間S上的單值實值函式,稱X為隨機變數

2.概率分佈

正態分佈的影象形式

既然介紹變數的分佈情況,就要介紹一下正態分佈。首先,正態分佈是關於均值左右對稱的,呈鐘形,如下圖所示。其次,正態分佈的均值和標準差具有代表性,只要知道其均值和標準差,這個變數的分佈情況就完全知道了。在正態分佈中,均值=中位數=眾數

3.抽樣分佈

中心極限定理

從均值為 μ\muμ,方差為 σ2\sigma^2σ2的一個任意總體中抽取容量為n的樣本,當n充分大時,
樣本均值的抽樣分佈近似服從均值為 μ\muμ ,方差為 σ2n\frac{\sigma^2}{n}nσ2​的正態分佈
根據中心極限定理,我們知道如果做很多次抽樣的話會得到很多個樣本均值,而這些樣本均值排列起來會形成正態分佈,他們的平均數是μ\muμ,標準差是σn\frac{\sigma}{\sqrt{n}}n​σ​ 換句話說,有約68% 的樣本均值會落在 μ±σn\mu \pm \frac{\sigma}{\sqrt{n}}μ±n​σ​之間,有約 95 %的樣本均值會落在 μ±2σn\mu \pm 2\frac{\sigma}{\sqrt{n}}μ±2n​σ​ 有約 99.7 %的樣本均值會落在 μ±3σn\mu \pm 3\frac{\sigma}{\sqrt{n}}μ±3n​σ​

把上述說法稍微轉換一下就變成:有68 %的 x‾±σn\overline x \pm \frac{\sigma}{\sqrt{n}}x±n​σ​ 會包含著 μ\muμ
有95 %的 x‾±2σn\overline x \pm 2\frac{\sigma}{\sqrt{n}}x±2n​σ​會包含著 μ\muμ
有99.7 %的 x‾±3σn\overline x \pm 3\frac{\sigma}{\sqrt{n}}x±3n​σ​會包含著μ\muμ
而這就是抽樣和估計最根本的道理

我們從全體之中以隨機抽樣方式抽取n個樣本,取得樣本觀察值,計算它們的平均數 x‾\overline xx ,然後加減兩倍的 σn\frac{\sigma}{\sqrt{n}}n​σ​
得到一組上下區間,然後說:我們有95 % 的信心,這個上下區間一定會包含著全體的平均數 μ\muμ。如果我們不放心的話,可以用 x‾\overline xx 加減三倍的 σn\frac{\sigma}{\sqrt{n}}n​σ​,那麼這組區間包含著 μ\muμ 的置信度就有99.7 %

中心極限定理:不論總體是什麼樣的形狀,只要在假定總體分佈不是很偏的情況下,總體選擇足夠多的情況下,選取的總體樣本均值就可以估計總體樣本均值的指標,抽樣出來的中位數、眾數都可以認為和總體是差不多的,是具有代表性的

引數估計

1.點估計

用樣本平均數 x‾\overline xx 來估計總體的平均數 μ\muμ 稱為點估計
點估計命中目標的機會是極低的,因為只憑著少數樣本觀察值得到的結果
要和全體的平均數吻合幾乎是不可能的事,所以我們除了用點估計,還有區間估計

根據中心極限定理和正態分佈的特性我們知道 x‾±σn\overline x \pm \frac{\sigma}{\sqrt{n}}x±n​σ​
這個區間包含著全體平均數 μ\muμ的機會有 68%(簡潔表達,我們省去“約”)
x‾±2σn\overline x \pm 2\frac{\sigma}{\sqrt{n}}x±2n​σ​的機會有95%,而 x‾±3σn\overline x \pm 3\frac{\sigma}{\sqrt{n}}x±3n​σ​的機會有99.7 %,
真正可靠的估計勢必要用區間估計,只有這樣做我們才可以知道估計準確度的程度,而這 68%、95%、99.7%就稱做是置信水平

說的更確切一點,以95 %的置信水平為例,它的意思是:如果我們進行一百次獨立抽樣估計,會有一百個樣本平均數,也會有一百個區間估計,而這一百個區間估計裡會有95個正確地包含著全體平均數 μ\muμ
實際上我們不會做一百次抽樣,而是隻做一次,所以說這一次抽樣而來的區間估計會包含著 μ\muμ的機會是95 %,置信水平越高,估計得區間也就越寬,這是高置信水平所必須付出的代價

2.區間估計

剛剛提到過一個好的估計必須既準又穩,我們用 x‾\overline xx 來估計 μ\muμ,如果做很多次的話,會有很多個 x‾\overline xx
中心極限定理已經給我們保證,這些 x‾\overline xx 的平均數會等於 μ\muμ
所以是[準]的估計已無問題,但是這些 x‾\overline xx是否都靠在一起,是[穩]呢?

這就要看 x‾\overline xx 的標準差了,我們已經知道x‾\overline xx的標準差是σn\frac{\sigma}{\sqrt{n}}n​σ​,其中 σ\sigmaσ 是全體的標準差,
n是樣本數,把樣本數加大會使得標準差變小,所以我們馬上領悟到樣本數越大,估計也就越穩。
其次,σ\sigmaσ 是全體資料的標準差,我們並不知道它到底是多少,在區間估計我們也需要用到它,因此為了要知道估計得準確度連全體資料的\sigma也要一起估計才行

至少有兩種方法來估計 σ\sigmaσ 一是用樣本觀察值得標準差 S,S2S^2S2的定義
S2=∑i=1n(Xi−x‾)2n−1S^2 = \frac{\sum^n_{i=1}(X_i - \overline x)^2}{n-1}S2=n−1∑i=1n​(Xi​−x)2​
本章要求我們對抽樣估計的理論、抽樣的多種組織形式的掌握\定必要樣本容量的原因,必要樣本容量的影響因素
明確概率統計的各個知識點與業務環境、資料分析三者間的對應關係

例題

1.根據中心極限定理可知,當樣本容量充分大時,樣本均值的抽樣分佈服從正態分佈,其分佈的均值為()

A.x‾\overline xx
B. μ\muμ
C.σ2\sigma^2σ2
D.σ22\frac{\sigma^2}{2}2σ2​

答案:B

解析:熟悉中心極限定理的概念

2.從均值為 μ\muμ 、方差為 σ2\sigma^2σ2(有限)的任意一個總體抽取大小為n的樣本 則()

A.當n充分大時,樣本均值 X‾\overline XX的分佈近似服從正態分佈

B.只有當n<30時,樣本均值 X‾\overline XX的分佈近似服從正態分佈

C.樣本均值 X‾\overline XX的分佈與 n無關

D.無論n多大,樣本均值 X‾\overline XX的分佈都為非正態分佈

答案:A

解析:熟悉大數定律

3.某中小企業某部門員工的年齡分佈是右偏的,均值為26,標準差是4.5.如果採取重複抽樣的方法從部門抽取容量為100的樣本,則抽樣均值的抽樣分佈是()

A.正態分佈,均值為26,標準差為0.45

B.分佈形狀未知,均值為26,標準差為4.5

C.正態分佈,均值為26,標準差為4.5

D.分佈形狀未知,均值為26,標準差0.45

答案:A

解析:不管總體分佈是何種分佈,抽樣分佈都是符合正態分佈的,對於該題中描述的對中小企業的某部門員工進行重複又放回抽樣,此時100個樣本量可看為已經充分大,根據中心極限定理,

Error occurred on encoding katex: KaTeX parse error: KaTeX parse error: Expected 'EOF', got '樣' at position 1: 樣̲本均值  \overline …
        

4.大樣本的樣本比例的抽樣分佈服從()

A.正態分佈

B. t分佈

C. F分佈

D. x2x^2x2 分佈

答案:A

解析:由二項分佈的原理和漸進分佈的理論可知,當n充分大時,樣本比例的分佈可用正態分佈去逼近

5.大樣本的樣本比例之差的抽樣分佈服從()

A.正態分佈

B. t分佈

C. F分佈

D. x2x^2x2 分佈

答案:A

6.估計量的含義是指()

A.用來估計總體引數的統計量的具體數值

B.用來估計總體引數的統計量的名稱

C.總體引數的具體數值

D.總體引數的名稱

答案:B

解析:熟悉估計量和估計值的定義

7.有關置信區間不正確的是

A. 100次獨立抽樣,產生的區間估計,會有95次的可能正確預測總體平均數

B. 1次獨立抽樣,產生的區間估計,會有95%的可能正確預測總體平均數

C. 100次獨立抽樣,產生的點估計,會有95個總體平均數一致

D. 100次獨立抽樣,產生的區間估計,會有95個正確地包含著總體平均數

答案:ABC

解析:置信區間是包含的概念,而不能用於預測

8.在其他條件都不變的情況下,提高置信水平(或置信度),那麼置信區間會()

A.變大

B.變小

C.不會有變化

D.有的情況變大,有的情況變小

答案:A

解析:提高置信水平就是提高置信區間 σ,則置信區間變大

Question:什麼是置信水平,什麼是置信區間?

9.在置信水平不變的情況下,要縮小置信區間,則需要()

A.改變統計量的抽樣標準差

B.減少樣本量

C.增加樣本量

D.保持樣本量不變

答案:C

解析:熟悉置信區間的定義。當置信水平固定時,置信區間的寬度隨樣本量的增大而減小,換言之,較大的樣本所提供的有關總體的資訊要比較小的樣本多

10.在小樣本條件下,當正態總體的方差未知時,估計總體均值使用的分佈是()

A.正態分佈

B. t 分佈

C. F 分佈

D. x2x^2x2分佈

答案:B

解析:熟悉總體引數估計得不同情況

11.兩個總體方差比的區間估計,使用的分佈是()

A.正態分佈

B. t 分佈

C. F 分佈

D.x2x^2x2分佈

答案:D

12.抽取一個容量為400的隨機樣本,其均值為80,標準差s=10,總體均值的95%的置信區間為()

A. 80±1.96

B. 80±0.98

C. 80±0.8

D. 80±1.29

答案:B

解析:95%的置信水平為1.96,總體均值為80±1.96*10/20

13.從一個正態總體中隨機抽取一個容量為n的樣本,其均值和標準差分別為35和4.當n=25時,構造總體均值的95%的置信區間為()

A. 35±1.96

B. 35±2.22

C. 35±4.97

D. 35±1.65

答案:D

解析:在正態分佈下總體均值的區間估計中,由於樣本量小於30,屬於小樣本,其當前總體標準差未知,所以採用t分佈

當樣本量足夠大的時候,採用的是Z統計量來近似正態分佈的估計

如果樣本量是小於30的,採用的是t統計量來對總體均值進行估計