一些關於資料探勘所需要的統計基礎(5)
大家好~這一次我們來簡單說一些關於資料探勘所需要的統計學基礎。不會很深奧哦,我儘量用大白話把它解釋清楚。因為我也是大菜雞,也還在學習
為了以後更好的完成我們的各項任務,所以有幾個概念呢在這裡預先做一下解釋和說明。
1. 均值
2. 方差
3. 大數定理
4. 中心極限定理
5. 假設檢測
6. p-value值的簡單介紹
前幾個概念都不難,主要是解釋最後兩個概念。
==================================
1. 均值
均值就是平均數······最為簡單的一個概念
在這裡不多做解釋了····
==================================
2. 方差
上過高中的朋友應該都知道它吧。方差是各個資料分別與其平均數之差的平方的和的平均數,用字母D表示。在概率論和數理統計中,方差(Variance)用來度量隨機變數和其數學期望(即均值)之間的偏離程度。
x 表示樣本的平均數,n 表示樣本的數量,xi 表示個體,而s^2就表示方差。
==================================
3. 大數定理
可以把它簡單的理解為:
當樣本的數量越來越多,那麼它的期望值,也就越接近平均值。當大量重複某一實驗時,最後的頻率無限接近事件概率。
==================================
4. 中心極限定理
簡單的理解為:
在適當條件下,大量相互獨立的、隨機的變數的均值,經過適當的標準化後,其分佈收斂於正態分佈。
==================================
5/6. 假設檢驗和p-value值的介紹
重點來了。有點小複雜。
用一個例子來說明一下吧
一個司機酒駕問題。分為四種情況。
(1)司機沒喝酒,酒駕檢測正常,沒超標,放行
(2)司機沒喝酒,酒駕檢測出了問題,(可能是裝置壞了啊,天氣不好啊,運氣太差啊),超標,被抓了
(3)司機喝酒了,酒駕檢測正常(運氣爆棚,沒查出來),沒超標,放行
(4)司機喝酒了,酒駕被抓(活該)
現在做一個原假設:司機沒喝酒
既然有原假設,那就也有備擇假設:司機喝酒了
我們將原假設當做一個標準(司機沒喝酒)去衡量一個事件,判斷司機到底有沒有喝酒。
--如果衡量的這個事件,發現這個事件發生的概率極低極低,那麼我們可以拒絕原假設。
--如果衡量的這個事件,發現這個事件發生的概率不是那麼低,是有可能的,那麼我們將不拒絕原假設。
如圖所示:
圖中藍色區域,表示沒喝酒的情況,也就是我們一開始原假設的情況。
圖中橙色區域,表示喝了酒的情況,也就是我們一開始備擇假設的情況。
我們現在呢,以“沒喝酒”這個標準去衡量司機到底有沒有喝酒這個事件
如果檢測出來的結果為上述第(2)種情況,即沒喝酒還被判斷為酒駕,這種極小概率發生的事件屬於下圖紅色塗抹區域:
這種極端的情況發生的概率之和,被稱為p-value。
再白話一點,假如酒精檢測判斷是否酒駕的標準為20mg/100ml。
一個司機沒有喝酒,但是酒駕檢查,發現他的酒精含量為21mg,出現這種事情的概率就屬於“極低概率事件”。
當然不僅有可能是21mg,還有可能是22mg,23mg等等,都有可能,只不過這個可能性,都非常非常的低。
所有這些低概率事件之和得到一個的總值,即為p-value。
謝謝大家~