卡方分佈和p_value小結

阿新 • • 發佈：2020-08-07

一、什麼是卡方分佈？什麼是卡方檢驗？卡方檢驗有什麼作用？

n個獨立同分布(標準正態分佈N(0,1))變數的平方和服從自由度為n的卡方分佈。

卡方檢驗的基本思想是：根據樣本資料推斷總體分佈與期望分佈是否有顯著性差異，或者推斷兩個分類變數是否相關或者獨立。一般可以設原假設為：觀察頻數與期望頻數沒有差異，或者兩個變數相互獨立不相關。實際應用中，我們先假設原假設成立，計算出卡方值，卡方表示觀察值與理論值間的偏離程度。

卡方值的計算公式：

A是觀察值，即真實統計值；
E是理論值（期望頻數），即假設兩個變數不相關情況下的期望值。

卡方檢驗的主要步驟：卡方檢驗分四步，檢驗兩個變數是否關聯

計算卡方值

求自由度（行數 - 1）*（列數 - 1）
設定顯著性水平值（顯著性水平是假設檢驗中的一個概念，是指當原假設為正確時人們卻把它拒絕了的概率或風險。它是公認的小概率事件的概率值，必須在每一次統計檢驗之前確定，通常取α=0.05或α=0.01。這表明，當作出接受原假設的決定時，其正確的可能性（概率）為95%或99%。）
根據以上計算結果查表

卡方檢驗作用：主要用於分類變數之間的獨立性檢驗，換言之，就是檢驗兩個分類變數之間有沒有關係，推斷兩個分類變數是否相關或相互獨立。
例如，研究學歷對收入的影響是否顯著性；
男性或者女性對線上買生鮮食品有沒有區別；

卡方檢驗python 實現：

 1 from scipy.stats import chi2_contingency
 2 from scipy.stats import chi2
 3 
 4 table = [[10,20,30],[6,9,17]]
 5 print(table)
 6 stat,p,dof,expected = chi2_contingency(table) # stat卡方統計值，p：P_value，dof 自由度，expected理論頻率分佈
 7 print("卡方統計值：",stat)
 8 print('dof=%d'%dof)
 9 print("expected:\n",expected)
 
10 
11 prob = 0.95 # 選取95%置信度
12 critical = chi2.ppf(prob,dof)  # 計算臨界閥值
13 print('probality=%.3f,critical=%.3f,stat=%.3f '%(prob,critical,stat))
14 if abs(stat)>=critical:
15     print('reject H0:Dependent')
16 else:
17     print('fail to reject H0:Independent')

Python結果：[[10, 20, 30], [6, 9, 17]]
卡方統計值： 0.27157465150403504
dof=2
expected:
 [[10.43478261 18.91304348 30.65217391]
 [ 5.56521739 10.08695652 16.34782609]]
probality=0.950,critical=5.991,stat=0.272 
fail to reject H0:Independent

二、什麼是p_value?有什麼用？

p-value：拒絕原假設H0時犯錯誤的概率，即其值越小，越說明拒絕原假設H0 接受備擇假設H1是正確的。
直觀來說，就是犯錯概率越低越好。

也可以解釋為，假定“不靠譜”原假設為真時，得到與樣本相同或者比樣本更極端結果的概率。
例如，原假設“人們拇指平均長度是10cm”，根據樣本資料得到p-value是0.03，這意味著如果人們拇指平均長度是10cm，得到樣本或更極端結果的概率是0.03，小於0.05，這時我們就可以認為原假設不可能成立，即拒絕原假設。這裡需要注意的是，P值不是給定樣本結果時原假設為真的概率，而是給定原假設為真時樣本結果出現的概率。

作用：p-value就是為了驗證假設和實際之間一致性的統計學意義的值，即假設檢驗

卡方分佈和p_value小結

卡方分佈和p_value小結

python 基於卡方值分箱演算法的實現示例

cisco_ospf路由重分佈和虛鏈路的配置

Android小部件Widget開發過程中的坑和問題小結

python 卡方檢驗

飛思卡爾KL36和LD3320結合的語音識別系統

C語言中求和、計算平均值、方差和標準差的例項

卡方檢驗（兩個類別變數是否獨立）以及chi2_contingency

Task01c：隨機抽樣與卡方檢驗的SQL實現

STM32-使用定時器+DAC輸出對齊的方波和三角波

卡方檢驗檢驗水準矯正_R語言入門之獨立性檢驗

OpenStack雲平臺開啟網絡卡多佇列和多佇列快取功

中科院地質地球所揭示火星上游太陽風的分佈和變化

機器學習sklearn（十六）：特徵工程（七）特徵選擇（二）卡方選擇（一）卡方檢驗

機器學習sklearn（十七）：特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗

Mac新手使用技巧，鍵盤鍵位分佈和快捷鍵

C++菱形繼承記憶體分佈和解決方案分析

VLSI測試方法學和可測試設計第1章電路分析基礎

VLSI測試方法學和可測試設計第2章模擬

VLSI測試方法學和可測試設計第6章掃描路徑法

卡方分佈和p_value小結

相關推薦