概率論全面總結
機器學習中,很多演算法的推導,需要概率和統計的很多知識。學校裡學的時候,基本是囫圇吞棗,也忘得差不離了。
現在複習一下,找一些概率與統計這門課的感覺。主要理解下什麼是隨機變數,與概率的關係,要樣本幹什麼,等等。
1. 什麼是古典概率?
有限個可能事件,且每個事件都是等可能概率事件。這個與抽樣問題,經常聯絡起來
2. 什麼是幾何分佈、超幾何分佈 ?
都是離散概率分佈。是抽取問題的一種。
幾何分佈,是描述的n重伯努利實驗成功的概率。前n-1次失敗,第n次成功,才叫幾何分佈。或者說,首次成功的實驗 的概率分佈。
超幾何分佈,其實是二項分佈的變體,二項分佈是同一事件,重複n次的概率分佈;而超幾何分佈,是一個事情只在每個維度上,都做一次。
3. 放回抽樣與不放回抽樣的概率有什麼不同?
其實是相同的。為什麼?
放回抽樣,很好理解,每次情景相同,概率都相同。
而不放回抽樣,每次抽樣,都是與前些次的抽樣相關的。這其實是一個排列組合問題。有的書採用對稱性進行分析,每次事件相互獨立,且具有對稱性,其基本事件:抽樣的序列,仍是排列。
從相關性上,前面的人抽中,與抽不中,對後面都有影響,但是這種影響又相互抵消。除非,前面有人知道如何抽中指定的。這個採用全概率公式,推導比較合理。
如當抽過i-1次後,仍剩下m個紅球,n個白球。第i次抽取白球的概率為
n/(m+n).
則第i+1次抽取白球的概率為: 全概率公式: n/(m+n) * (n-1)/(m+n-1) + m/(m+n) * n/(m+n-1) = n/(m+n) 遞推下去,每次抽取的概率都是相同的。
更進一步,這個問題,可變體為:蒙提霍爾問題,出自美國的電視遊戲節目Let’s Make a Deal。汽車與山羊,三扇門,選中汽車的概率,在開啟一扇門後,有沒有變化。
若主持人不知情,則概率無變化。剩餘兩門:1/2,1/2,無放回抽樣類似。
若主持人知情,概率就會發生變化。剩餘兩門:未開門的概率為2/3,1/3,非概率事件。
4. 什麼是隨機變數?與概率什麼關係?
一個單值實值函式,是一個函式X。而每個具體的實值x,會有一個出現的概率,這個概率能用這個函式(隨機變數)能體現。隨機變數的概念在機器學習的貝葉斯學習中、模式識別的貝葉斯分類中,是分析的基礎。
5. 離散隨機變數,常見的有哪些
三種分佈
利用排列組合的知識,0-1分佈,二項分佈/n重伯努利分佈 都比較好理解。
而泊松分佈 是一種指數分佈的形式。基本上是泰勒展開式的形式。為什麼會有泊松分佈的形式?
它也是一個單峰值函式,n無窮大時,可以近似二項分佈。 因為二項分佈的計算不如泊松分佈方便。
以平均值,就能表徵一個群體的特徵的分佈。n*lambda。圍繞中心分佈,兩邊衰減極快。
其主要描述一種稀有事件發生的概率。n很大,p很小。 而且其 期望與方差 都是lambda。 適合描述 單位時間、空間內 隨機發生的事情。
–>> 隨機變數,從離散型至連續型。離散型的隨機變數,比較好理解,而連續型的隨機變數,某一點的概率是為0.所以,連續型的隨機變數,利用區間來表示。
而連續型的隨機變數,即是一個連續型的函式。其用某區間內的概率表示,就比較合適。用區間概率表示的函式,就是隨機變數的分佈函式F(x)。而區間的概率表示:
P(x1 <x<=x2) = F(x2) - F(x1).
推匯出隨機變數的概率密度函式 f(x)。
6. 連續型隨機變數,如何定義,如何表示?
分佈函式:
1)均勻分佈、平均分佈
2)指數分佈
這個分佈的形式很重要,它是一般線性迴歸的分佈的主要形式。
對於可靠性分析,排隊論中有廣泛應用。
3)高斯分佈、正態分佈
也可以說是指數分佈的一種特殊表現形式。擁有對稱性,極大值等特性。 噪聲的分佈經常都是正態分佈,在應用中,基本上都假設是這種分佈,在大部分的統計中,也確實符合這種分佈。
其方差與置信區間的關係,3sigma法則 99.74%
正態分佈的線性變換,仍然是正態分佈,且性質保持不變。所以,任何隨機變數正態分佈,都可以轉換為標準正態分佈,進行求值,查詢。分位點的概念,就是隨便變數轉換為標準正態後的對應的值。
已知隨機變數X的分佈,Y與X的關係,推導Y的分佈。很重要。
F(Y) = P(Y<y) = P(X < g(y)).即可
7. 二維隨機變數,是推廣到高維隨機變數的基礎。
問題:X,Y相互獨立情況下,其概率分佈情況?
相互獨立的隨機變數:性質 F(X, Y) = F(X) * F(Y)
X,Y非獨立情況下,X在Y限制下的條件分佈?
邊緣分佈 fy = 積分f(x,y)dx
條件分佈 f(x,y) / fy
求證X+Y <=Z 的概率密度函式, 備用系統
將x+y<z的積分, 轉換為x =u-y,將積分轉換為dy與dx次序無關的積分。
Z=XY, 或Z=X/Y的分佈
積分,變換,次序無關,求導
Z=min(x, y) Z=max(x, y)的分佈, 串聯、並聯系統
max(x,y ) <=z 等同於 x<=z, y<=z
min(x, y) <=z 等同於 1-( max(x, y) > z) = 1-( x>z, y>z)
以上都是隨機變數、概率的聯絡和推導。
8. 隨機變數的數字特徵,有哪些
轉換到隨機變數自身的性質。而且隨機變數真正的分佈是不知道的,只能通過其統計特徵來估計其分佈。
期望:又稱均值。對於連續型隨機變數,就是積分了。一階矩。這個可以用來衡量偏差。E(|X-EX|)
方差:衡量離散的程度。與二階矩相關。EX^2 - (EX)^2
與期望、方差及概率相關的一個定理:
切比雪夫不等式 P(|x -u| > m) < D(x)/m
協方差,這個概念在機器學習,統計學中跟方差的概念同樣重要。因為兩個隨機變數不可能任何時候都是相互獨立的。
不相關是針對線性關係而言,而相互獨立是對一般關係而言,包括非線性關係。
矩:隨機變數的各階的數字特徵
協方差矩陣:多維隨機變數的聯合數字特徵。一個對稱陣。半正定矩陣,對角元素為各隨機變數的方差。在PCA中,協方差矩陣是求特徵值的首要構成。
9. 大數(高頻重複試驗)定理與概率的關係。
獨立同分布隨機變數序列的算術平均值是如何收斂到、接近其期望的。
辛欽定理的描述的概率事件。 小概率事件,一件事重複發生n次。
試驗次數很大時,可以用頻率代替事件的概率。頻率與概率的偏差非常小。
中心極限定理,隨機序列足夠大時,擬合正態分佈,求具體事件發生的概率
1)同分布,同方差,期望。 所有隨機變數序列的和(期望、方差和),服從正態分佈
2)已知方差,期望。分佈不知,所有隨機變數的和(期望、方差和),服從正態分佈
3)二項分佈,n重複大時,重複次數足夠大時,二項分佈與正態分佈相似。可以用正態分佈來計算二項分佈。
這類問題,先知道基本事件發生的概率,然後求期望,方差,擬合正態分佈,再求具體事件發生的概率。
概率論都是研究 概率、隨機變數分佈,及其關係。但這些都是理論,未與實際應用結合。而且實際的隨機變數是不可完全精確測的。
—————-
所以,統計,就是如何估計,擬合這些隨機變數的。或者,判斷某隨機變數與某分佈的擬合程度,或關係。
觀測,獲取樣本,由樣本進行統計、推斷。
而樣本除了自身的值,還可以擴展出各種統計量,就由樣本值計算的高階資料:均值、方差、高階矩。
10. 經驗分佈函式、真實分佈函式 關係
當樣本個數足夠大時,兩者相等。
什麼是樣本?與總體的關係?
實際應用中總體的隨機分佈是未知的,一個總體對應一個隨機變數,而從總體中抽取一個個體,就是樣本,樣本就是與總體有相同分佈的隨機變數。即樣本與總體,都是隨機變數,而且服從相同分佈。樣本間是相互獨立的。
當測量或觀察完成, 樣本隨機變數就會得到一個實數值,這就是樣本值。
反過來,服從同一分佈函式,且相互獨立的隨機變數序列,就是同一總體中的樣本。
通過樣本值來估計樣本和總體的分佈,就是統計的事。
抽樣分佈,又叫統計量分佈。當總體的精確的分佈函式確定時,其統計量分佈(抽樣分佈)就確定了,然後,統計量的精確分佈的求解是很困難的。所以,只能從樣本中計算。
常用抽樣分佈:
1)卡方分佈
統計量:來自N(0, 1)的樣本的平方和
服從自由度為n的卡方分佈。 EX = n, DX = 2n
2)t分佈、student分佈
卡方分佈,自由度為n
3)F分佈
與卡方分佈相關,自由度n1,n2
當總體分佈N(u,DX)已知,則抽樣的統計量分佈是:
服從正態總體的、樣本均值的 分佈
N(u, DX/n)
抽樣(樣本均值、樣本方差)與卡方分佈的關係
抽樣(抽樣期望與抽樣方差)與t分佈的關係
兩個正態分佈的抽樣統計量與 F分佈,t分佈的關係。
由假設的正態分佈的樣本,到樣本的函式分佈,正態樣本的統計量的分佈函式形式。應該說是重點關注的正態樣本的統計量。
一個總體,是一個隨機變數
而每個樣本,也是一個隨機變數,是對總體的一次觀察,每個樣本的值,是一個實數。
區別:樣本、樣本值
11. 引數估計:
機器學習中,最基本的推理基礎。
估計量的定義: 以樣本為自變數的函式/統計量。
因此,常用的估計量有:
1)矩估計量
比較好理解,均值,方差,n階矩
2)最大似然估計量
概率密度函式f(x; theta), theta是估計量
那麼所有樣本的聯合概率密度函式就是:
f(xi, theta)的連乘。
為什麼要構造這個形式?有什麼理論依據?
首先,要假設,或已知帶引數的分佈函式
然後,構造聯合概率分佈函式,因為每個樣本也都是隨機變數
最後,求極值。計算出估計量。
極大似然函式,或者對數極大似然函式構造 是關鍵。 理解樣本X是隨機變數。
機器學習中,常用的解法是梯度下降法,或牛頓法。
估計量的性質:
1)無偏性、針對期望
無偏估計量:估計量的期望 等於 真實值
如樣本方差S^2是總體方差的估計量,而不是二階中心矩;
除以n-1,而不是n,是因為 樣本均值的影響,樣本均值也是一個隨機變數。
所有樣本平方和 減去 樣本均值的平方,就是樣本方差。而樣本均值的方差是總體方差的1/n。
2)有效性:針對方差
比較兩個估計量,相同無偏性的性質下,哪個散度小,即D(theta),就選哪個。
3)相合性
樣本無窮大,估計量等於真實值。極大似然估計法,滿足這個特性。
12. 置信區間
條件:已知總體分佈、樣本資料
求滿足某個概率的區間。 即可以理解為,在這個範圍內,達到某種可信度,可信概率。
計算出樣本均值,樣本方差。然後,由統計量的分佈,進行計算置信區間。
常見問題
正態分佈:
1)求期望的置信區間
總體方差已知:正態分佈
總體方差未知:應用樣本方差,t分佈
2)求方差的置信區間
利用樣本方差,和卡方分佈,進行計算
3)兩個總體是正態分佈的情況
求期望差的置信區間:
總體方差已知:正態分佈
總體方差未知:t分佈
求方差比的置信區間
F分佈,樣本方差
單側置信區間:
上限或下限,與雙側置信區間相比,需要查不同的表,但是計算方法相同。
13. 假設檢驗:
線性迴歸,邏輯迴歸,一般迴歸的分析的基礎。
解決的問題:
在整個總體分佈未知或僅知道形式,但各種引數未知,僅有一些測試的樣本資料的場景下,提出某種假設。利用樣本,驗證假設的合理性。
一個判斷的標準,需要一個接受假設的概率。
利用這個概率,去查詢對應的分佈的區間。
計算樣本的統計量,看是否在其分佈的接受區間內。
因此,由接收概率,提出接收域,拒絕域。雙邊檢驗,單邊檢驗。
相當於,求出置信區間,然後判斷統計量,是否在置信區間內。
置信水平 + 顯著性檢驗水平 = 1
再接下來,就能過度到方差分析與迴歸分析了。
只不過,統計學中的迴歸分析,在擬合出模型後,還要做假設檢驗等等。
—————————–
1. 什麼是先驗概率?
事情未發生,只根據以往資料統計,分析事情發生的可能性,即先驗概率。
2. 什麼是後驗概率?與先驗概率關係?
事情已發生,已有結果,但求引起這事發生的因素的可能性,有果求因,即後驗概率。 後驗概率,引起的原因,是測量可能錯誤。
後驗概率的計算,是以先驗概率為前提條件的。如果只知道事情結果,而不知道先驗概率(沒有以往資料統計),是無法計算後驗概率的。
後驗概率的計算需要應用到貝葉斯公式
3. 貝葉斯公式與先驗、後驗概率的關係?
全概率公式,總結幾種因素,事情發生的概率的並集。由因求果。
貝葉斯公式,事情已經發生,計算引起結果的各因素的概率,由果尋因。同後驗概率。
4. 什麼是條件概率?
後驗概率是一種條件概率。
但條件概率不一定就是後驗概率。
如 P(y|x),P(x|y)都是條件概率,二者表示的含義卻不同。這裡x表示因,y表示果。或者說x是特徵,y是模型結果。
則P(y)是先驗概率,而P(x|y)是後驗概率。
而P(y|x)是一個條件概率,而不是後驗概率。
P(xy) = P(x|y)*P(y)
而一般分析問題時,已知的是特徵x,需要判別結果y。
這裡由推出一個判別模型。
5. 什麼是判別模型?
計算判別模型P(y|x)時,需要 先驗概率,後驗概率作為基礎。又稱為條件概率模型。
常見的判別模型:線性迴歸、對數迴歸/邏輯迴歸、SVM、boosting、條件隨機場、神經網路、最近鄰演算法Nearest neighbor等。 這些 模型都是通過計算 條件概率的 最大似然估計推匯出來。
它是在有限樣本的條件下,尋找最優的分類面,關注判別模型的邊緣分佈。目標函式大部分直接對應 分類準確率。
6. 什麼是生成模型?
主要是估計 聯合概率分佈。如P(x,y) = P(x|y)*P(y)
生成模型 有無限的樣本,可以得到其 概率密度模型, 然後可以進行預測了。
常見生成模型: 隱式馬爾科夫模型、樸素貝葉斯模型、高斯混合模型、有限波茲曼機等。
因其有無限的樣本,可以採用增量的方式學習模型,對於單類問題比判別模型強,資訊量比判別模型豐富。主要是對後驗概率建模,關注自身,而不關注邊界。
由判別模型得不到生成模型,而從生成模型可以得到判別模型。
7. 高斯判別分析 與 邏輯迴歸的 關係
8. 貝葉斯決策理論的前提
1)各類別的概率分佈是已知的,每個類別都有一類相同的特徵資料,只不過相同條件下,每個類別概率不同。概率分佈,概率密度分佈
2)類別的個數是一定的
已知先驗概率、和 採集的資料特徵(這個因素在每個分類上的後驗概率)
就可以對該資料進行分類。原理就是條件概率,貝葉斯決策。
最小錯誤率的貝葉斯決策與最小風險的貝葉斯決策 的區別和聯絡?
最小錯誤率的貝葉斯決策: 結果為 maxP(yi | x)
最小風險的貝葉斯決策:是考慮了各種錯誤造成不同的損失而提出的一種決策。