Python假設檢驗

阿新 • • 發佈：2018-12-12

import pandas as pd
import pylab
import math
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from scipy.stats import norm
import scipy.stats
import warnings
warnings.filterwarnings("ignore")

df=pd.read_csv("http://ww2.amstat.org/publications/jse/datasets/normtemp.dat.txt",sep="   ",names=['Temperature','Gender','Heart Rate'])
df.head()

Temperature	Gender	Heart Rate
0	96.3	1	70
1	96.7	1	71
2	96.9	1	74
3	97.0	1	80
4	97.1	1	73

df.describe()

Temperature	Gender	Heart Rate
count	130.000000	130.000000	130.000000
mean	98.249231	1.500000	73.761538
std	0.733183	0.501934	7.062077
min	96.300000	1.000000	57.000000
25%	97.800000	1.000000	69.000000
50%	98.300000	1.500000	74.000000
75%	98.700000	2.000000	79.000000
max	100.800000	2.000000	89.000000

#假設檢驗
#前提檢驗正態分佈
observed_temperatures = df['Temperature'].sort_values()
bin_val = np.arange(start = observed_temperatures.min(),stop=observed_temperatures.max(),step=50)
mu,std = np.mean(observed_temperatures),np.std(observed_temperatures)

p = norm.pdf(observed_temperatures, mu,std)

plt.hist(observed_temperatures,bins=bin_val,normed=True,stacked=True)
plt.plot(observed_temperatures,p,color='r')
plt.xticks(np.arange(95.75,101.25,0.25),rotation=90)
plt.xlabel('Human Body Temperature Distributions')
plt.ylabel('human body temperature')
plt.show()
print("Average (Mu):"+str(mu)+"/ Standard Deviation:" + str(std))

Average (Mu):98.24923076923076/ Standard Deviation:0.7303577789050376

#確定指標進行正態檢驗
x = observed_temperatures
shapiro_test,shapiro_p = scipy.stats.shapiro(x)
print("Shapiro-Wilk Stat:",shapiro_test,"Shapiro-Wilk p-Value:",shapiro_p)

k2,p = scipy.stats.normaltest(observed_temperatures)
print("k2:",k2,"p:",p)

#以上兩種方法，p值大於0.05，認為正態分佈

#Another method to determining normality is through Quantile-Quantile Plots
#QQ圖檢查正態分佈
scipy.stats.probplot(observed_temperatures,dist='norm',plot=pylab)
pylab.show()

Shapiro-Wilk Stat: 0.9865769743919373 Shapiro-Wilk p-Value: 0.2331680953502655
k2: 2.703801433319236 p: 0.2587479863488212

#另一種檢測正態分佈的方法
def ecdf(data):
    #Compute ECDF
    n = len(data)
    x = np.sort(data)
    y = np.arange(1,n+1) / n
    return x,y
# Compute empirical mean and standard deviation

#Number of samples
n = len(df['Temperature'])

#Sample mean
mu = np.mean(df['Temperature'])

#Sample standard deviation
std = np.std(df['Temperature'])

print("Mean Temperature:",mu,"Standard deviation:",std)

#基於當前的均值和標準差，隨機生成一個正態分佈
normalized_sample = np.random.normal(mu,std,size=10000)
normalized_x,normalized_y = ecdf(normalized_sample)

x_temperature,y_temperature = ecdf(df['Temperature'])

#Plot the ECDFs
fig = plt.figure(figsize=(8,6))
plt.plot(normalized_x,normalized_y)
plt.plot(x_temperature,y_temperature,marker='.',linestyle='none')
plt.xlabel('ECDF')
plt.ylabel("Temperature")
plt.legend(("Normal Distribution","Sample data"))

Mean Temperature: 98.24923076923076 Standard deviation: 0.730357778905038

Out[73]:

<matplotlib.legend.Legend at 0xb3437b8>

#驗證98.6為平均溫度
from scipy import stats
CW_mu = 98.6
stats.ttest_1samp(df['Temperature'],CW_mu,axis=0)
#T-Stat -5.454 p-value 近乎0，拒絕原假設

Ttest_1sampResult(statistic=-5.454823292364077, pvalue=2.410632041561008e-07)

#檢驗男女體溫是否明顯區別
#兩獨立樣本t檢驗
#H0:兩樣本沒有明顯差異，H1:有明顯差異
female_temperature = df.Temperature[df.Gender==2]
male_temperature = df.Temperature[df.Gender==1]
mean_female_temperature = female_temperature.mean()
mean_male_temperature = male_temperature.mean()
print("男體溫均值：",mean_male_temperature,"女體溫均值:",mean_female_temperature)

#兩獨立樣本t檢驗
stats.ttest_ind(female_temperature,male_temperature,axis=0)

#由於p值0.024 < 0.05 ,拒絕原假設，我們有95%的自信度認為是有差異的

男體溫均值： 98.1046153846154 女體溫均值: 98.39384615384616

Ttest_indResult(statistic=2.2854345381654984, pvalue=0.02393188312240236)

Python假設檢驗

import pandas as pd import pylab import math import numpy as np import matplotlib.pyplot as plt %matplotlib inline from scipy.stats import

Python金融系列第四篇：置信區間和假設檢驗

作者：chen_h 微訊號 & QQ：862251340 微信公眾號：coderpai 第五篇：多元線性迴歸和殘差分析第六篇：現代投資組合理論第七篇：市場風險第八篇：Fama-French 多因子模型介紹在上一章中，我們討論了隨機變

[Python] 如何證明兩組樣本有顯著性差異(t-test假設檢驗)

現有兩組樣本資料，假如它們分別基於兩套不同的方法，或者測於不同的裝置，又或是出自兩個人之手，如何證明它們有或沒有顯著性差別呢？當然可以拿個Excel表把資料畫個圖，然後找一堆人來投票，看覺得差不多還是覺得差得多的人哪方票數高。但終歸這種做法有些主觀，不夠說明力。概率統計

假設檢驗的Python實現

結合假設檢驗的理論知識，本文使用Python對實際資料進行假設檢驗。匯入測試資料從線上下載測試資料檔案，資料鏈接：https://pan.baidu.com/s/1t4SKF6U2yyjT365FaE692A* 資料欄位說明： gender：性別，1為男性，2為女性 Temperature:體溫 H

【概率論與數理統計】小結10-1 - 假設檢驗概述

sqrt htm get 依據事件 http 例如 style 科學註：終於寫到最激動人心的部分了。假設檢驗應該是統計學中應用最廣泛的數據分析方法，其中像"P值"、"t檢驗"、"F檢驗"這些如雷貫耳的名詞都來自假設檢驗這一部分。我自己剛開進入生物信息學領域，用的最多的就

假設檢驗（Hypothesis Testing）

基本思想 ddc 控制 .com bcd 樣本 course bbf 正態分布什麽是假設檢驗　　假設檢驗是用來判斷樣本與樣本，樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。其基本原理是先對總體的特征作出某種假設，然後通過抽樣研究的統計推理，對此假

置信區間和假設檢驗的理解

置信區間和假設檢驗的理解更新答案數學理論的引入很大程度上是為了解決實際問題，或者是提供一種看待和理解現實世界的方式置信區間（解決根據樣本推能夠相信的範圍）：如果男女地位的主張是從一個極端男權到極端女權一個連續變化的值的話，人群（富強民主文明和諧美麗群體，主張男女平

【數理統計學習】統計假設檢驗

統計假設檢驗可分為引數假設檢驗和非引數假設檢驗兩大部分。當總體分佈形式已知，檢驗的目的是對總體的引數及其性質作出判斷，則稱這種檢驗為引數假設檢驗。若總體分佈形式未知，需對總體分佈函式形式或總體之間的關係進行推斷，則稱為非引數假設檢驗。顯著性檢驗：先提出假設，然後作出否定或者不否定的判斷，稱為顯著性

統計基礎之假設檢驗

原假設：，定義與備擇假設完全相反的內容稱為原假設。備擇假設：，將試圖建立的結果設為備擇假設。第一類錯誤：當為真時，做出拒絕的結論第二類錯誤：當為真時，卻接受了。 1、總體均值的檢驗：已知下側檢驗上側檢驗

Python_4組資料看線性迴歸的假設檢驗問題

一般情況下，當H0:β1=0H_0: \beta_1 = 0H0:β1=0 被接受的時候，表明 yyy 的取值傾向不隨 xxx 的值按線性關係變化。這種情況的原因可能是變數 yyy 與 xxx 之間

【數學】假設檢驗求p值

1. 不存在p檢驗，只有Z檢驗、T檢驗、卡方檢驗、U檢驗等，這些檢驗都有p值。 2. t檢驗只有當確定資料分佈為正態分佈時才用；獨立重複實驗得到結果可假設為服從正態分佈(存疑)；同樣是t檢驗，也分

統計學--假設檢驗過程

假設檢驗原理基礎：小概率原理，即一般認為小概率事件在一次隨機抽樣中不會發生。基本思想：先建立一個關於樣本所屬總體的假設，考察在假設條件下隨機樣本的特徵資訊是否屬小概率事件，若為小概率事件，則懷疑

電腦科學採用訓練資料集，驗證資料集，測試資料集的方法為什麼不採用統計學中常用的假設檢驗呢？（引數檢驗和非引數檢驗）

如題所說，這個問題作為一個本科讀管理，碩士讀計算機卻旁修經濟學，博士在讀計算機的我來說感覺比較迷惑的。在管理學，經濟學，計算機這三門學科在解決優化問題的時候採用的方法大致相同，其核心都是統計學，管理學，電腦科學中採用的基礎方法，如線性迴歸，多元線性迴歸，廣義線性迴歸，決策樹，SVM,ID3,KNN等分類方法

假設檢驗(hypothesis testing)及P值(p-value)

前一篇t檢驗的文末提到了P值的概念，P值實際上是醫學統計中很常用的一個概念，那麼這篇文章繼續講解什麼是P值。說到P值，就得先從假設檢驗說起。首先宣告，此篇的內容是來自"馬同學高等數學"微信公眾號的內容。目錄 2、P值參考文獻： 1、什麼是假

資料探勘基礎之統計學的假設檢驗實驗

本部落格根據非常好的excel資料而編寫，使用python語言操作，預計使用一週的時間更新完成。需要《非常好的excel資料》word文件，歡迎發郵件給[email protected]，免費發放。這篇部落格對應《非常好的excel資料》裡的第3章節。 1.假設檢驗實驗 1

假設檢驗實驗和擬合優度檢驗練習題

本部落格根據非常好的excel資料而編寫，使用python語言操作，預計使用一週的時間更新完成。需要《非常好的excel資料》word文件，歡迎發郵件給[email protected]，免費發放。這篇部落格對應《非常好的excel資料》裡的第4章節裡的練習題。 1.1 練習題

假設檢驗（一）總體分佈已知

總體分佈已知時，對總體X的分佈中的引數提出的檢驗問題又稱引數假設檢驗問題基本概念原假設：H0:θ∈Θ0H_0:\theta\in\Theta_0H0:θ∈Θ0 備擇假設：H1:θ∈Θ1H_1:\theta\in\Theta_1H1:θ∈Θ1

Python 假設有列表 a=[‘name’,’age’,’sex’]和b=[‘Dog’,38,’Male’]，請編寫程式將這兩個列表的內容轉換為字典

假設有列表 a=[‘name’,’age’,’sex’]和b=[‘Dog’,38,’Male’]，請編寫程式將這兩個列表的內容轉換為字典，並且以列表a中的元素為“鍵”，以列表b中的元素為“值” 練習題 2018.10.11 d = {'a':1,'b':2} a = i

如何用最通俗易懂的方式理解假設檢驗

假設檢驗簡單來說，就是下面4步的推理邏輯：為了你更容易理解，我還是從一個生活中的例子開始聊起。這個例子裡舉王寶強和馬蓉的例子並沒有惡意，只是想說明假設檢驗的背後邏輯，而這個例子更容易讓你理解清楚。有一天，寶強懷疑妻子有可能出軌，但是自己邏輯能力太弱，於是就

從線性模型到廣義線性模型(2)——引數估計、假設檢驗

本文系轉載，原文連結：http://cos.name/2011/01/how-does-glm-generalize-lm-fit-and-test/ 1.GLM引數估計——極大似然法為了理論上簡化，這裡把GLM的分佈限定在指數分佈族。事實上，實際應用中

Python假設檢驗

相關推薦