1. 程式人生 > >概率論全面總結

概率論全面總結

機器學習中,很多演算法的推導,需要概率和統計的很多知識。學校裡學的時候,基本是囫圇吞棗,也忘得差不離了。

現在複習一下,找一些概率與統計這門課的感覺。主要理解下什麼是隨機變數,與概率的關係,要樣本幹什麼,等等。

1. 什麼是古典概率?

有限個可能事件,且每個事件都是等可能概率事件。這個與抽樣問題,經常聯絡起來

2. 什麼是幾何分佈、超幾何分佈 ?

都是離散概率分佈。是抽取問題的一種。

幾何分佈,是描述的n重伯努利實驗成功的概率。前n-1次失敗,第n次成功,才叫幾何分佈。或者說,首次成功的實驗 的概率分佈。

超幾何分佈,其實是二項分佈的變體,二項分佈是同一事件,重複n次的概率分佈;而超幾何分佈,是一個事情只在每個維度上,都做一次。

3. 放回抽樣與不放回抽樣的概率有什麼不同?

其實是相同的。為什麼?

放回抽樣,很好理解,每次情景相同,概率都相同。

而不放回抽樣,每次抽樣,都是與前些次的抽樣相關的。這其實是一個排列組合問題。有的書採用對稱性進行分析,每次事件相互獨立,且具有對稱性,其基本事件:抽樣的序列,仍是排列。

從相關性上,前面的人抽中,與抽不中,對後面都有影響,但是這種影響又相互抵消。除非,前面有人知道如何抽中指定的。這個採用全概率公式,推導比較合理。

如當抽過i-1次後,仍剩下m個紅球,n個白球。第i次抽取白球的概率為

n/(m+n).

則第i+1次抽取白球的概率為: 全概率公式:  n/(m+n)  *  (n-1)/(m+n-1)  +  m/(m+n) * n/(m+n-1) = n/(m+n) 遞推下去,每次抽取的概率都是相同的。

更進一步,這個問題,可變體為:蒙提霍爾問題,出自美國的電視遊戲節目Let’s Make a Deal。汽車與山羊,三扇門,選中汽車的概率,在開啟一扇門後,有沒有變化。

若主持人不知情,則概率無變化。剩餘兩門:1/2,1/2,無放回抽樣類似。

若主持人知情,概率就會發生變化。剩餘兩門:未開門的概率為2/3,1/3,非概率事件。

4. 什麼是隨機變數?與概率什麼關係?

一個單值實值函式,是一個函式X。而每個具體的實值x,會有一個出現的概率,這個概率能用這個函式(隨機變數)能體現。隨機變數的概念在機器學習的貝葉斯學習中、模式識別的貝葉斯分類中,是分析的基礎。

5. 離散隨機變數,常見的有哪些

三種分佈

利用排列組合的知識,0-1分佈,二項分佈/n重伯努利分佈 都比較好理解。

而泊松分佈 是一種指數分佈的形式。基本上是泰勒展開式的形式。為什麼會有泊松分佈的形式?

它也是一個單峰值函式,n無窮大時,可以近似二項分佈。 因為二項分佈的計算不如泊松分佈方便。

以平均值,就能表徵一個群體的特徵的分佈。n*lambda。圍繞中心分佈,兩邊衰減極快。

其主要描述一種稀有事件發生的概率。n很大,p很小。 而且其 期望與方差 都是lambda。 適合描述 單位時間、空間內 隨機發生的事情。

–>> 隨機變數,從離散型至連續型。離散型的隨機變數,比較好理解,而連續型的隨機變數,某一點的概率是為0.所以,連續型的隨機變數,利用區間來表示。

而連續型的隨機變數,即是一個連續型的函式。其用某區間內的概率表示,就比較合適。用區間概率表示的函式,就是隨機變數的分佈函式F(x)。而區間的概率表示:

P(x1 <x<=x2) = F(x2) - F(x1).

推匯出隨機變數的概率密度函式 f(x)。

6. 連續型隨機變數,如何定義,如何表示?

分佈函式:

1)均勻分佈、平均分佈

2)指數分佈

這個分佈的形式很重要,它是一般線性迴歸的分佈的主要形式。

對於可靠性分析,排隊論中有廣泛應用。

3)高斯分佈、正態分佈

也可以說是指數分佈的一種特殊表現形式。擁有對稱性,極大值等特性。 噪聲的分佈經常都是正態分佈,在應用中,基本上都假設是這種分佈,在大部分的統計中,也確實符合這種分佈。

其方差與置信區間的關係,3sigma法則 99.74%

正態分佈的線性變換,仍然是正態分佈,且性質保持不變。所以,任何隨機變數正態分佈,都可以轉換為標準正態分佈,進行求值,查詢。分位點的概念,就是隨便變數轉換為標準正態後的對應的值。

 已知隨機變數X的分佈,Y與X的關係,推導Y的分佈。很重要。

F(Y) = P(Y<y) = P(X < g(y)).即可 

7. 二維隨機變數,是推廣到高維隨機變數的基礎。

問題:X,Y相互獨立情況下,其概率分佈情況?

相互獨立的隨機變數:性質 F(X, Y) = F(X) * F(Y)

X,Y非獨立情況下,X在Y限制下的條件分佈?

邊緣分佈 fy = 積分f(x,y)dx

條件分佈 f(x,y) / fy

求證X+Y <=Z 的概率密度函式, 備用系統

將x+y<z的積分, 轉換為x =u-y,將積分轉換為dy與dx次序無關的積分。

Z=XY, 或Z=X/Y的分佈

積分,變換,次序無關,求導

Z=min(x, y)  Z=max(x, y)的分佈, 串聯、並聯系統

max(x,y ) <=z  等同於 x<=z, y<=z

min(x, y) <=z 等同於 1-( max(x, y) > z) = 1-( x>z, y>z)

以上都是隨機變數、概率的聯絡和推導。

8. 隨機變數的數字特徵,有哪些

轉換到隨機變數自身的性質。而且隨機變數真正的分佈是不知道的,只能通過其統計特徵來估計其分佈。

期望:又稱均值。對於連續型隨機變數,就是積分了。一階矩。這個可以用來衡量偏差。E(|X-EX|)

方差:衡量離散的程度。與二階矩相關。EX^2 - (EX)^2

與期望、方差及概率相關的一個定理:

切比雪夫不等式 P(|x -u| > m) < D(x)/m

協方差,這個概念在機器學習,統計學中跟方差的概念同樣重要。因為兩個隨機變數不可能任何時候都是相互獨立的。

不相關是針對線性關係而言,而相互獨立是對一般關係而言,包括非線性關係。

矩:隨機變數的各階的數字特徵

協方差矩陣:多維隨機變數的聯合數字特徵。一個對稱陣。半正定矩陣,對角元素為各隨機變數的方差。在PCA中,協方差矩陣是求特徵值的首要構成。

9. 大數(高頻重複試驗)定理與概率的關係。

獨立同分布隨機變數序列的算術平均值是如何收斂到、接近其期望的。

辛欽定理的描述的概率事件。 小概率事件,一件事重複發生n次。

試驗次數很大時,可以用頻率代替事件的概率。頻率與概率的偏差非常小。

中心極限定理,隨機序列足夠大時,擬合正態分佈,求具體事件發生的概率

1)同分布,同方差,期望。 所有隨機變數序列的和(期望、方差和),服從正態分佈

2)已知方差,期望。分佈不知,所有隨機變數的和(期望、方差和),服從正態分佈

3)二項分佈,n重複大時,重複次數足夠大時,二項分佈與正態分佈相似。可以用正態分佈來計算二項分佈。

這類問題,先知道基本事件發生的概率,然後求期望,方差,擬合正態分佈,再求具體事件發生的概率。

概率論都是研究 概率、隨機變數分佈,及其關係。但這些都是理論,未與實際應用結合。而且實際的隨機變數是不可完全精確測的。

—————-

所以,統計,就是如何估計,擬合這些隨機變數的。或者,判斷某隨機變數與某分佈的擬合程度,或關係。

觀測,獲取樣本,由樣本進行統計、推斷。

而樣本除了自身的值,還可以擴展出各種統計量,就由樣本值計算的高階資料:均值、方差、高階矩。

10. 經驗分佈函式、真實分佈函式 關係

當樣本個數足夠大時,兩者相等。

什麼是樣本?與總體的關係?

實際應用中總體的隨機分佈是未知的,一個總體對應一個隨機變數,而從總體中抽取一個個體,就是樣本,樣本就是與總體有相同分佈的隨機變數。即樣本與總體,都是隨機變數,而且服從相同分佈。樣本間是相互獨立的。

當測量或觀察完成, 樣本隨機變數就會得到一個實數值,這就是樣本值。

反過來,服從同一分佈函式,且相互獨立的隨機變數序列,就是同一總體中的樣本。

通過樣本值來估計樣本和總體的分佈,就是統計的事。

抽樣分佈,又叫統計量分佈。當總體的精確的分佈函式確定時,其統計量分佈(抽樣分佈)就確定了,然後,統計量的精確分佈的求解是很困難的。所以,只能從樣本中計算。

常用抽樣分佈:

1)卡方分佈

統計量:來自N(0, 1)的樣本的平方和

服從自由度為n的卡方分佈。 EX = n, DX = 2n

2)t分佈、student分佈

卡方分佈,自由度為n

3)F分佈

與卡方分佈相關,自由度n1,n2

當總體分佈N(u,DX)已知,則抽樣的統計量分佈是:

服從正態總體的、樣本均值的 分佈

N(u, DX/n)

抽樣(樣本均值、樣本方差)與卡方分佈的關係

抽樣(抽樣期望與抽樣方差)與t分佈的關係

兩個正態分佈的抽樣統計量與 F分佈,t分佈的關係。

由假設的正態分佈的樣本,到樣本的函式分佈,正態樣本的統計量的分佈函式形式。應該說是重點關注的正態樣本的統計量。

一個總體,是一個隨機變數

而每個樣本,也是一個隨機變數,是對總體的一次觀察,每個樣本的值,是一個實數。

區別:樣本、樣本值

11. 引數估計:

機器學習中,最基本的推理基礎。

估計量的定義: 以樣本為自變數的函式/統計量。

因此,常用的估計量有:

1)矩估計量

比較好理解,均值,方差,n階矩

2)最大似然估計量

概率密度函式f(x; theta), theta是估計量

那麼所有樣本的聯合概率密度函式就是:

f(xi, theta)的連乘。

為什麼要構造這個形式?有什麼理論依據?

首先,要假設,或已知帶引數的分佈函式

然後,構造聯合概率分佈函式,因為每個樣本也都是隨機變數

最後,求極值。計算出估計量。

極大似然函式,或者對數極大似然函式構造 是關鍵。 理解樣本X是隨機變數。

機器學習中,常用的解法是梯度下降法,或牛頓法。

估計量的性質:

1)無偏性、針對期望

無偏估計量:估計量的期望 等於 真實值

如樣本方差S^2是總體方差的估計量,而不是二階中心矩;

除以n-1,而不是n,是因為 樣本均值的影響,樣本均值也是一個隨機變數。

所有樣本平方和 減去 樣本均值的平方,就是樣本方差。而樣本均值的方差是總體方差的1/n。

2)有效性:針對方差

比較兩個估計量,相同無偏性的性質下,哪個散度小,即D(theta),就選哪個。

3)相合性

樣本無窮大,估計量等於真實值。極大似然估計法,滿足這個特性。

12. 置信區間

條件:已知總體分佈、樣本資料

求滿足某個概率的區間。 即可以理解為,在這個範圍內,達到某種可信度,可信概率。

計算出樣本均值,樣本方差。然後,由統計量的分佈,進行計算置信區間。

常見問題

正態分佈:

1)求期望的置信區間

總體方差已知:正態分佈

總體方差未知:應用樣本方差,t分佈 

2)求方差的置信區間

利用樣本方差,和卡方分佈,進行計算

3)兩個總體是正態分佈的情況

求期望差的置信區間:

    總體方差已知:正態分佈

    總體方差未知:t分佈

求方差比的置信區間

    F分佈,樣本方差

單側置信區間:

上限或下限,與雙側置信區間相比,需要查不同的表,但是計算方法相同。

13. 假設檢驗:

線性迴歸,邏輯迴歸,一般迴歸的分析的基礎。

解決的問題:

在整個總體分佈未知或僅知道形式,但各種引數未知,僅有一些測試的樣本資料的場景下,提出某種假設。利用樣本,驗證假設的合理性。

一個判斷的標準,需要一個接受假設的概率。

利用這個概率,去查詢對應的分佈的區間。

計算樣本的統計量,看是否在其分佈的接受區間內。

因此,由接收概率,提出接收域,拒絕域。雙邊檢驗,單邊檢驗。

相當於,求出置信區間,然後判斷統計量,是否在置信區間內。

置信水平 + 顯著性檢驗水平 = 1

再接下來,就能過度到方差分析與迴歸分析了。

只不過,統計學中的迴歸分析,在擬合出模型後,還要做假設檢驗等等。

—————————–

1. 什麼是先驗概率?

事情未發生,只根據以往資料統計,分析事情發生的可能性,即先驗概率。

2. 什麼是後驗概率?與先驗概率關係?

事情已發生,已有結果,但求引起這事發生的因素的可能性,有果求因,即後驗概率。 後驗概率,引起的原因,是測量可能錯誤。

後驗概率的計算,是以先驗概率為前提條件的。如果只知道事情結果,而不知道先驗概率(沒有以往資料統計),是無法計算後驗概率的。

後驗概率的計算需要應用到貝葉斯公式

3. 貝葉斯公式與先驗、後驗概率的關係?

全概率公式,總結幾種因素,事情發生的概率的並集。由因求果。

貝葉斯公式,事情已經發生,計算引起結果的各因素的概率,由果尋因。同後驗概率。

4. 什麼是條件概率?

後驗概率是一種條件概率。

但條件概率不一定就是後驗概率。

如 P(y|x),P(x|y)都是條件概率,二者表示的含義卻不同。這裡x表示因,y表示果。或者說x是特徵,y是模型結果。

則P(y)是先驗概率,而P(x|y)是後驗概率。

而P(y|x)是一個條件概率,而不是後驗概率。

clip_image011[8]

P(xy) = P(x|y)*P(y)

而一般分析問題時,已知的是特徵x,需要判別結果y。

這裡由推出一個判別模型。

5. 什麼是判別模型?

計算判別模型P(y|x)時,需要 先驗概率,後驗概率作為基礎。又稱為條件概率模型。

常見的判別模型:線性迴歸、對數迴歸/邏輯迴歸、SVM、boosting、條件隨機場、神經網路、最近鄰演算法Nearest neighbor等。 這些 模型都是通過計算 條件概率 最大似然估計推匯出來。

它是在有限樣本的條件下,尋找最優的分類面,關注判別模型的邊緣分佈。目標函式大部分直接對應 分類準確率。

6. 什麼是生成模型?

主要是估計 聯合概率分佈。如P(x,y) = P(x|y)*P(y)

生成模型 有無限的樣本,可以得到其 概率密度模型, 然後可以進行預測了。

常見生成模型: 隱式馬爾科夫模型、樸素貝葉斯模型、高斯混合模型、有限波茲曼機等。

因其有無限的樣本,可以採用增量的方式學習模型,對於單類問題比判別模型強,資訊量比判別模型豐富。主要是對後驗概率建模,關注自身,而不關注邊界。

由判別模型得不到生成模型,而從生成模型可以得到判別模型。

7. 高斯判別分析 與 邏輯迴歸的 關係

8. 貝葉斯決策理論的前提

1)各類別的概率分佈是已知的,每個類別都有一類相同的特徵資料,只不過相同條件下,每個類別概率不同。概率分佈,概率密度分佈

2)類別的個數是一定的

已知先驗概率、和 採集的資料特徵(這個因素在每個分類上的後驗概率)

就可以對該資料進行分類。原理就是條件概率,貝葉斯決策。

最小錯誤率的貝葉斯決策與最小風險的貝葉斯決策  的區別和聯絡?

最小錯誤率的貝葉斯決策: 結果為 maxP(yi | x)

最小風險的貝葉斯決策:是考慮了各種錯誤造成不同的損失而提出的一種決策。