Udacity課程脈絡-統計學基礎(一)
前言
想了解一些機器學習基礎,但對於一個零基礎的人而言,只好從最基礎的資料統計看起。發現優達學城的課程非常不錯,為了鞏固所學計劃整理一下課程的脈絡以及關鍵知識點,便於回顧。
這篇文章的歸納的知識點如下
- 中心極限定理(抽樣分佈)
- 置信區間
- 假設檢驗與顯著性水平(臨界區域)
- 單尾檢驗 & 雙尾檢驗
- I型錯誤和II型錯誤
中心極限定理(抽樣分佈):
對於均值分佈,其中每個均值都是樣本量為 n 的均值,該分佈的標準偏差就等於總體標準偏差除以平方根 n,這就叫做中心極限定理,數學公式表達為
M = ( X1 + X2 + … + Xn ) / n
M ~ N(μ,σ²/n)
中心極限定理適用於任何總體,總體可以是任何形狀。
假設我們從中抽取一個樣本並計算出均值,然後再抽取出一個樣本並計算出均值,持續這麼操作。
如果畫出均值分佈圖的話,形狀會是相對正態的,其中標準偏差等於總體標準偏差除以樣本量的平方根叫做SE即標準誤差。
如下圖所示:
置信區間
可以結合知乎上這個問題的第一個回答來理解(關於人類身高的栗子)
如何理解 95% 置信區間
置信區間展現的是引數的真實值(μ)有一定概率落在測量結果的周圍的程度。置信區間給出的是被測量引數的測量值的可信程度。
注意:下圖是一個抽樣分佈,根據中心極限定理,樣本均值M服從如下正態分佈:
M ~ N(μ
注:總體的μ未知,σ和n已知
假設檢驗與顯著性水平(臨界區域)
某個樣本的均值位於任何一個臨界區,表示不太可能發生,如果位於綠色區域,即最小的臨界區,我們將報告最小的α水平。因為這表明樣本統計資料與總體引數非常不同,因此證明很有可能採取了任何形式的人為處理措施。
下圖中z=1.82,我們可以說在比例小於0.05時具有統計顯著意義。因為1.82位於紅色區域的某個位置,表明獲得這個樣本均值的概率小於0.05,但並不小於0.01,所以它僅在比例小於0.05時具有統計顯著意義。
這基本上就是假設檢驗的思路。
單尾檢驗 & 雙尾檢驗
假設檢驗
在進行統計檢驗時,我們自己設定判斷條件,即我們自己選擇一個α水平,然後規定如果獲得特定樣本均值的概率小於該α水平,那麼就證明有效。通常會選擇α水平0.05,在單尾檢驗和雙尾檢驗兩種情形下都存在兩種可能的結果,樣本均值要麼位於臨界區之外,要麼位於臨界區之內,我們將這兩種結果成為零假設,並用H0(零假設)或Ha(對立假設)來表示。
H0 (null hyphothesis)
Ha (alternative hyphothesis)
零假設認為當前總體引數和在某種干預後出現的新總體引數之間沒有顯著差異。我們將表示為當前總體引數μ等於干預後的總體引數 (注:這裡說的等於並非完全等於,我們只是說二者沒有顯著差異)。對立假設猜測存在顯著差異,當前總體均值將比干預後的總體均值小或大,或者二者之間不相等。
對於零假設,當我們猜測這兩個引數之間沒有顯著差異時,樣本均值將位於臨界區之外,在上圖的白色區域,同時應注意對於單尾檢驗,臨界區可能在左端而非右端。
對立假設猜測有顯著差異,表明樣本均值將位於臨界區的某個位置。
以一個雙尾假設檢驗為慄:
上圖栗子是檢驗如果在線上課程中有背景音樂會不會顯著提高學員的參與度。
已知量:總體均值μ和σ。樣本大小n和樣本均值。
通過已知量計算抽樣分佈z值:注意上圖的正態分佈表示的樣本均值分佈。樣本均值的均值應該和總體均值相同。標準偏差應等於總體標準偏差除以平方根n,我們想知道樣本均值位於這個分佈哪個位置也就是說z值為多少。
最終結果如下圖:
z值1.89小於z值1.96,因此樣本均值位於白色區域,即某個位於總體均值周圍的95%樣本均值之一,因此我們不能拒絕H0即零假設。沒有足夠的證據可以證明在推出音樂形式的課程後新的總體引數將與現在的總體引數顯著不同。也就是說根據我們的樣本,我們猜測參與度將保持不變。
假設檢驗(增大樣本量)
如果增加樣本量n=50,假設均值不變還是8.3,此時得出的z=2.44。針對α水平0.05提出同樣的問題。
此次z=2.44大於Z臨界值,表明樣本均值位於臨界區的某個位置,樣本量為50的樣本達到均值為8.3的概率非常的小,小於2.5%。因此我們將拒絕零假設,我們有證據證明歌曲對參與度有影響。
I型錯誤和II型錯誤
用公式表達為P(表示概率)小於0.05(α水平)。因為從樣本量為50的樣本中獲得該樣本均值的概率小於α水平。我們拒絕該零假設的理由是該概率太低。
低概率並不代表不會發生。這種型別的統計分析可能存在理解錯誤。能夠觀看音樂形式課程的學員,有可能之前參與度就高,我們錯誤的將高參與度均值歸功於音樂。
我們有可能決策錯誤,引申出下圖中的錯誤型別:
I類錯誤:拒絕了正確的H0假設
II類錯誤:接受了錯誤的H0假設
可以看出,統計學始終可能會理解有誤,資料只能起到一定的作用,重要的是如何收集資料,樣本量有多大?樣本是隨機的嗎?在做出統計決策時,需要考慮各種因素。