1. 程式人生 > >【概率論】客觀概率論 私人回顧

【概率論】客觀概率論 私人回顧

本科期間學過概率論,隨機過程,讀研期間又學了隨機過程。這次做一個總結和回顧,把概率論要緊的知識點和我的理解放在這篇blog裡。這是一篇全文字不加圖的blog,如果沒有學過概率論來看我寫的這個東西,很可能看一段就看不懂了。選擇的是浙大版的《概率論與數理統計》第四版,由於我是工科生,不是數學系,可能對概念的理解不如數學系理解的深入。

這一篇blog是概率論基礎和客觀概率。

一、 概率公理化

略過高中的概率理論(也就是概率基礎知識,基本概念)不談,直接講出知識點。這些基礎的知識點包括,概率的定義,樣本空間,隨機事件(構成一個集合),建立在集合論基礎上的∩、∪、差集的概率及相互關係,古典等概模型,條件概率,乘法公式,全概率模型,貝葉斯公式,事件獨立公式。

條件概率,乘法公式:針對所有事件都成立的公式,可以當做公理。

全概率公式:全概率公式裡給出了一種模型,也就是將整個樣本空間拆分成多塊,事件在整個樣本空間中的概率就是在各個分塊上的條件概率之和,體現的是整分的思想。

貝葉斯公式:由全概率公式得出,一開始看到貝葉斯公式的時候我感覺有點費解,實際上它給出了兩個事件之間的關係,兩個事件A和B,相互計算條件概率,之間存在必然的聯絡。這個必然的聯絡就是A和B本身在樣本空間中的概率。這樣看來,四個變數,得其三個,剩下一個必然求得出。

期望:本質是在下一次時間發生時,事件的理論化的,絕對化的取值,體現了絕對性、一致性、集中性、線性。由於期望本身就是一個絕對化、理想化的函式,所以滿足複合函式的性質。也滿足疊加性。

方差:衡量了樣本空間的差異化,衡量的是不一致性、個體性、非線性。但是疊加性是滿足的。

二、 客觀概率和主觀概率

概率論分客觀概率和主觀概率,即貝葉斯概率理論。從客觀角度講,概率是一個樣本空間中必然的性質;拿拋擲硬幣為例,我們都知道概率基本上是一半對一半,但是,當我們確定了手丟擲硬幣的力度的大小,硬幣距離桌面的高度,硬幣翻轉的角速度,等等資訊之後,我們會確定地根據物理公式計算出這個硬幣到底是正面朝上還是反面朝上,也就是說,在確定了某一次事件的時候,事件就確定下來,和概率沒有一毛錢關係。基於這樣的條件,我們能否構造一種機器,確保根據計算機計算得到的結果,決定機器丟擲時的受力,高度,等等各種引數變數,使每一次丟擲的硬幣結果都是正面呢?這當然理論上是可行的。但是實際的空間當中有太多的因素影響拋硬幣的結果,風速、空氣密度、硬幣的材質、重量、桌面的彈性,等等。也就是說,現階段我們不可能構造出這樣的一種機器來,使拋擲結果始終為正面,可以理解為影響因素有無限維度。這樣,不論怎麼拋擲,甚至我們無法左右拋擲的概率可否正面大一些,反面小一些。這樣看來,概率是這個樣本空間的固有性質

,無法改變,所有的概率討論的都是不可控的樣本空間。

反過來想,當我們預測下一次拋擲結果的時候,根據的是之前的經驗,比如已經拋擲1000下,502次為正,498次為反,所以我們可以預測下一次的為正的可能性和為反差不多。歸結為概率,也就是說我們可以根據概率去估計未來的事件到底是樣本空間中的哪一個。有估計就有檢驗,如果看估計的對不對,就是要對估計的結果和真實的情況做對比,這種真實情況是確定的,只不過我們太無能,無法根據已有資訊得出確定的結果來。這個估計又可以稱為對下一次情況發生的假設,又稱假設檢驗。假設的結果從估計而來。這樣對未來情況的判知就是主觀概率。

再舉一個例子,通訊當中,我們從信源傳送1或0 訊號到信宿,比如說此時傳送了一個1,但是由於熱噪聲、外界干擾、訊號衰減等作用,導致了在信宿接收訊號的時候,完全無法判斷到底是1還是0,全靠蒙了,蒙對的概率是一半。之所以蒙,是因為人類無法掌握影響訊號結果的各種影響因素到底是如何疊加在一起的。但是在信源傳送1的時候加一個功率放大器,使訊號的振幅一點一點的,從1.1倍,到2倍,再到10倍,最後放到原來的100倍大,其它噪聲都是加性噪聲,這時候信宿判斷的結果也就從一開始完全靠蒙到60%機率接收對了,再到90%機率接收對了,最後到99.999%接收對了傳來的1訊號。在這個例子中,主要體現了一個隨機猜測的訊號是如何一點點變成確定訊號的,主要就是我們對事件的控制,我們對事件的控制力越強,結果就越確定,反之則弱。

綜合可以看出,概率學的誕生就是因為人類的無知。概率本身就是對人類對某件事的無知的衡量,也就是說,概率只是一個測度,是在西格瑪代數下,範圍為 0 到1的一個測度。如果人類能夠掌握整個宇宙所有的知識,我們可以掌握拋擲硬幣時所有的影響因素,那麼就完全不用衍生出概率學的學科了,每次對以後事件的走向也是確定性的,可預測的,我就是個機械唯物主義者。但這卻完全做不到。有時候我會感覺,概率學衡量了人類對宇宙認識的深淺,由於我們無知,所以只能從無知當中獲取一些知識。扯遠了。

我們在討論概率的時候,總喜歡假設某個事件,某一些事件是相互之間獨立同分布,這裡事件的獨立性是保證能討論下去的前提,這就類似於線性代數裡的線性空間,要保證等分均勻且等比縮放,訊號與系統裡的線性時不變系統,讓系統的性質始終處於不變的狀態。可實際上的環境是,自然界很少有獨立事件,可能根本就沒有什麼獨立事件,我現在打下了這些文字,美國有個人正在強殺黃種人,這兩者之間真的沒有關係嗎?就像蝴蝶效應一樣,只是人們沒有發現這種必然的關係罷了。就像計算機產生的psudo 序列一樣,看似隨機不可預測,其實都是計算機一個個的算出來的,看似獨立,只不過透漏出人類的無知。

三、常用分佈

伯努利二項分佈:這個分佈在很多實驗測量時用到,在機器學習中,對學習模型結果的評估只有兩個結果,預測正確和失敗,多次預測的模型就是二項分佈,用於根據多次預測結果估計模型的真實效能。

泊松分佈:分佈公式裡有常數e,表明這個分佈是自然界的常態分佈,體現了不確定事件的疊加性,以及不確定性的疊加性。和二項分佈之間是極限關係,因為兩者都是0-1分佈的加和,只不過伯努利分散式n個0-1分佈相加,泊松分佈是無限個,所以當n逼近無限時,無限關係自然存在。

正態分佈:也是一種自然分佈。泊松分佈是0-1分佈的加和,而正太分佈是隨便一個連續分佈的加和的結果。

四、二維分佈

二維分佈和邊緣分佈,我認為可以對應到二元函式和二元函式給定其中一元確定值,得出的一元函式。二元實數函式的取值範圍為實數域,而二維分佈的取值則是樣本空間,樣本空間連群都算不上,只是個集合。邊緣分佈則是全概率公式的一個特例應用;同樣地,得知二元函式的偏導數就可以得到x軸或y軸上的一元函式。

二維分佈的隨機變數之間的獨立性,類似於考察二元函式的兩個變數是否滿足正交性,若不正交則相互依賴。

連續二維分佈中的兩個變數X和Y的加和得到的新變數Z的分佈,等於各自分佈的卷積。我在訊號與系統的blog裡講過了卷積的物理意義,卷積的本質就是線性疊加。兩個變數相加,就是滿足線性疊加的條件,而概率密度本身的含義就是強度,一個變數去某個值的強度,從二維分佈可以擴充套件到多維分佈,也是一個道理。

從離散的二維分佈中的兩個變數加和得到新變數的過程,就是卷積離散的最好體現,卷積本質上是連續化的加權加和

二維分佈中,X和Y的乘除得到的新的變數Z的分佈,就是利用複合函式的性質轉化一下,得到一個一維分佈。不僅僅是乘除,其它的形式可替換的變數都是可以按照複合函式方式來求解的,包括上面的加和,只不過複合函式求加和,恰巧變成了卷積而已。

五、概率度量

方差和期望不贅述。協方差從定義上來看,如果變數X和Y無關,甚至獨立,那麼當其中一個變數取到某個值時,另一個變數依然在隨機遊走,則可以說協方差取值比較任意,否則不夠任意。協方差滿足線性。

這個概念從線性空間處比較容易類比,線性相關和線性無關是相反的兩個概念,隨機變數的相關性和不相關性也是這樣;但是兩個向量如果正交,則一定線性無關,這好比兩個隨機變數獨立,就一定是不相關的,但是不獨立就一定相互有關聯。相關是一個弱概念,它只是指明瞭兩個隨機變數之間一定存在某些不一樣的地方,但是有時候也會體現出一些一致性,而比相關性更強則是確定性關係,兩個隨機變數之間就完全可以拿一個確定函式來描述其間的關係了。不相關的意思就是兩個變數之間不存在相互關聯而從具體的某個個體來看,這兩個變數可能還有一些關聯,但是從總體看來,兩者沒有關聯獨立性的含義也很明顯,我們不可能拿出一個函式來描述兩個變數之間的關係,因為這兩個變數之間沒有一絲關係,究其個體而言,也是沒有任何關聯。所以相關性是專門針對隨機變數而言的。

概率度量擴充套件開來,隨機變數的次方,稱為階數,不變稱為原點,期望稱為中心,則可得到一系列度量矩,這些矩構成協方差矩陣。其中所有的元素都是二階中心矩。這裡解釋一下協方差矩陣,從線性空間角度講,該矩陣對應的線性空間是若干隨機變數張成的線性空間,其取值都是各自的樣本空間。若兩兩互不相關,該矩陣就成了一個對角陣,但是如果兩兩存在相關,矩陣就變得多樣化起來,也就是說,協方差矩陣對應的線性空間就是這N個隨機變數相互關係的所有可能性張成的空間。協方差矩陣的本質就是描述這N個隨機變數之間的相互關係

六、大數定理

弱大數定理:頻率趨於收斂,說明這個極限是一個收斂的穩定的值,是建立在客觀實驗基礎上的歸納和總結,符合客觀概率論。大數定理是客觀概率論的基礎,其基本思想仍然是極限,從具體的頻率走向抽象的概率的過程。

獨立同分布中心極限定理:獨立是前提,同分布是關鍵,加和結果是高斯分佈,之前在高斯分佈處也提到了
李雅普諾夫定理:將獨立同分布條件改為獨立條件,稱只要滿足一個比同分布更寬鬆的條件,同樣可以加和得到高斯分佈,所以同分布是一個強條件。
迪莫佛-拉普拉斯定理:建立了二項分佈和高斯分佈之間的關係,指出二項分佈的極限是泊松分佈,但是之前提到了二項分佈按照另外一種逼近是泊松分佈,如果畫一個圖就可以知道了,二項分佈是正態分佈和泊松分佈之間的過度形式