1. 程式人生 > >【學習筆記】統計學入門(4/7)——正態分佈

【學習筆記】統計學入門(4/7)——正態分佈

來源:http://study.163.com/course/courseMain.htm?courseId=1005232026

索引——

  • 基本概念
  • 連續變數的統計描述
  • 分類變數的統計描述
  • 正態分佈
  • 二項分佈
  • 引數估計與可信區間
  • 假設檢驗

四、正態分佈

1、從樣本頻數分佈到概率分佈

     直方圖/頻率圖的性質:

(1)直條的面積實質上是頻率(或者百分比),即:

         面積 = 高度(頻率/組距) * 寬度(組距) = 頻率

(2)所有直條面積相加等於1

         樣本量越來越大時,頻率(面積)去向概率;

         組距越來越小時,直方圖的頂替所成點並且各個直方條的頂連結成一條曲線,該曲線就是概率密度分佈曲線;

         概率密度的概念和固體的密度基本類似。

(3)概率密度曲線下的面積就是相應的累計概率

(4)概率密度曲線就是大量重複隨機變異的規律

           

2、正態分佈和標準正態分佈

2.1 正態分佈,記為:X~N(μ,σ^2)

      正態分佈的倆個重要特徵:均數μ,標準差σ  

      μ是分佈曲線的峰位置(集中趨勢),又被稱為位置引數;

      σ(讀作:西格瑪)越大離散程度越大,σ越小離散程度越小(離散趨勢),又被稱為形狀引數;

      正態分佈是左右對稱的,具有對稱性。

2.2 標準正態分佈

2.2.1 統計學家計算出均數為0,標準差為1的正態分佈N(0,1)曲線下面幾分分佈規律:

95%

99%

雙側

1.96(常用)

2,58

單側

1.64

2.33

          標準正態分佈N(0,1)與其他正態分佈N(μ,σ^2 )的關係:

          若X~N(μ,σ^2) ,則       

2.2.2 標準正態分佈的曲線下面積分分佈規律

         只要將相應的指標轉換為服從標準正態分佈,就可以根據該面積分佈規律計算累計概率

         

3、正態分佈的應用

3.1 估計個體參考值;

3.2 整個經典統計學中更復雜方法的基石;

3.3 工業生產中的質量控制,如下圖

             

4、做正態分佈分析步驟

4.1 確定資料是否服從正態分佈:

  • 若服從,直接採用正態分佈公式計算參考值範圍
  • 若不服從,考慮是否可變換為正態分佈(對數轉換、平方根轉換),變換後採用正態分佈公式計算參考值範圍
  • 無法變化,則使用百分位數法計算參考值範圍

    PS:    Q:不直接用百分位數法進行計算?

             A:百分位數法樣本容量太大不容易滿足條件

4.2 運用Excel 分析是否是正態分佈

   最簡單、直觀的方法是做出直方圖/頻數圖:

  • 若直方圖剛好是左右對稱圖形則是正態分佈;
  • 若不符合則可以考慮做變換(可用Excel函式SQRT()),再重新觀察分佈狀況。

    如下圖,則是偏態分佈(大資料在小的一端)則不符合正態分佈,則做平方變換。

    

             

     (平方根轉換後)結果:轉換後並沒達到理想的正態分佈狀態;同理,這時可以考慮用對數轉換再檢視結果......