資料科學家應知必會的6種常見概率分佈
前言
假設你是個大學老師。 在檢查了一週的作業後,對學生進行了打分。 讓錄分員建立一個包含所有學生成績的電子表格,要求是隻含分數不含學生姓名等資訊。
於是乎,錄分員一個大粗心,漏錄了好幾個分數,介個時候不知道把誰給漏錄了。來看看怎麼解決這個問題吧。
一種方法是視覺化已錄資料,並從中發現某些資料中的趨勢。
上面這個圖就是畫出來的資料的頻率分佈圖。 可以從圖的邊緣隱約看到一條光滑的曲線可以用來定義我們的資料,但是我們也得注意到一個異常,有個段的柱條缺半截似的,也就是這一段分數範圍內的頻率異常低。所以最好是能有些值來把這個短半截給補上。
這就是一個現實生活中用資料分析解決問題的一個例子。對任何科學家而言,不管你是個學生或者是專家,分佈是一個必知的概念。因為這是分析和統計推斷的基礎。
概率概念給了我們計算它的方法,分佈才是幫我們看清資料背後的暗泉湧動。
目錄:
- 常見資料型別
- 分佈型別
- 伯努利分佈(Bernoulli Distribution)
- 均勻分佈(Uniform Distribution)
- 二項分佈(Binomial Distribution)
- 正態分佈(Normal Distribution)
- 泊松分佈(Poisson Distribution)
- 指數分佈(Exponential Distribution)
- 分佈之間的關係
- 測一測
一、常見資料型別
在正式的解釋分佈之前,我們先來看一看平時遇到的資料。資料可大致分為離散型資料和連續型資料。
離散型資料
離散型資料顧名思義就是隻取幾個特定的值。例如:當你擲骰子的時候,結果只有1,2,3,4,5,6,不會出現類似1.5,2.5。
連續型資料
在一個給定的範圍內,連續型資料可以取任意值。這個範圍可以是有限的或者是無窮的。例如:一個人的體重或者身高,可以取值54kg,54.4kg,54.33333kg等等都沒有問題。
下面就開始介紹分佈的型別。
二、分佈型別
伯努利分佈(Bernoulli Distribution)
首先從最簡單的分佈開始,伯努利分佈實際上是一個聽起來最容易理解的分佈。
伯努利分佈一次實驗有兩個可能的結果,比如1代表success及0代表failure。隨機變數
這裡,概率分佈函式為
成功和失敗的概率沒必要相同,也就是沒必要都是0.5,但是這倆概率加和應該為1,比如可以是下面的圖:
這個圖就是
下面說一下隨機變數的期望,一個分佈的期望就是這個分佈的均值。服從伯努利分佈的隨機變數
服從伯努利分佈的隨機變數的方差是:
還有許多伯努利分佈的例子,比如說明天是否會下雨,今天會不會去健身,明天乒乓球比賽是不是會贏。
均勻分佈(Uniform Distribution)
當你擲骰子的時候,結果出現1到6中的任何一個,而任何一個結果出現的概率都是相同的,這就是均勻分佈最原始的雛形。你可能看出來了,與伯努利分佈不同的是,這
一個隨機變數
下圖為均勻分佈的密度圖的樣子:
咱們可以看出來均勻分佈的密度圖是個矩形,這也就是為啥均勻分佈的暱稱是矩形分佈。
對於均勻分佈來說
例子:假如花店每日銷售的花束數量均勻分佈,最多40只,最少10只。
我們來嘗試計算每日賣花數量在15到30之間的概率。由於隨機變數所有可能發生的事件的概率和為1,並且賣花數量是均勻分佈,所有在15到30之間的概率為
若隨機變數
Mean->
Variance->
標準的均勻分佈的密度引數為
二項分佈(Binomial Distribution)
我們假定一個隨機變數,比如
如果就兩個可能的結果。 成功,失敗。 因此,成功概率= 0.5,失敗的概率可以容易地計算為:
只有兩種結果是可能的分佈,如成功或失敗,以及所有試驗的成功和失敗概率相同的情況稱為二項分佈。
發生結果的可能性不同時, 前面的例子如果實驗成功的概率是0.2,那麼失敗的概率可以很容易地計算出來,
每次試驗都是獨立的,因為之前的結果並不決定或影響當前的結果。 只有兩次重複n次的可能結果的實驗稱為二項式。 二項分佈的引數是
基於上述解釋,二項分佈的性質是:
- 每次實驗獨立
- 試驗中只有兩種可能的結果 - 成功或失敗。
- 共進行了
n 次相同的試驗。 - 所有試驗的成功和失敗的概率是相同的。 (試驗是相同的。)
二項分佈的數學表示式由下式給出:
一個二項分佈圖,其中成功的概率不等於失敗的概率長這樣:
成功概率與失敗概率相等,長這樣:
二項分佈均值和方差:
Mean ->
Variance ->
正態分佈(Normal Distribution)
正態分佈可以表示宇宙中大多數的事件發生情況。 如果任何分佈具有以下特徵,則稱為正態分佈:
- 均值、中位數、眾數在一個分佈中取相同的值;
- 分佈曲線關於
x=μ 對稱; - 曲線下面的面積總和為;
- 中心位置的左半邊和右半邊對應位置的概率取值相同。
正態分佈與二項分佈有很大的不同。 但是,如果試驗次數接近無窮大,則形狀將非常相似。