1. 程式人生 > >高等數學(概率論)

高等數學(概率論)

一.微積分與逼近論

遇到的數學符號:

  • ∑:西格瑪 Sigma 
  • θ:西塔 Theta 
  • μ:繆 Mu 
  • α:阿爾法 Alpha

1.什麼是微積分?

微積分學,數學中的基礎分支。內容主要包括函式、極限、微分學、積分學及其應用。函式是微積分研究的基本物件,極限是微積分的基本概念,微分和積分是特定過程特定形式的極限。

擴充套件:函式的概念

(1)函式的定義

給定一個數集A,假設其中的元素為x。現對A中的元素x施加對應法則f,記作f(x),得到另一數集B。假設B中的元素為y。則y與x之間的等量關係可以用y=f(x)表示。我們把這個關係式就叫函式關係式,簡稱函式。首先要理解,函式是發生在集合之間的一種對應關係。

(2)函式的三要素

  • 定義域A
  • 值域C
  • 對應法則f

其中核心是對應法則f,它是函式關係的本質特徵。函式的對應法則通常用解析式表示,但大量的函式關係是無法用解析式表示的,可以用影象、表格及其他形式表示。

(3)函式的概念

在一個變化過程中,發生變化的量叫變數(數學中,常常為x,而y則隨x值的變化而變化),有些數值是不隨變數而改變的,我們稱它們為常量。

  • 自變數(函式):一個與它量有關聯的變數,這一量中的任何一值都能在它量中找到對應的固定值。
  • 因變數(函式):隨著自變數的變化而變化,且自變數取唯一值時,因變數(函式)有且只有唯一值與其相對應。
  • 函式值:在y是x的函式中,x確定一個值,y就隨之確定一個值,當x取a時,y就隨之確定為b,b就叫做a的函式值。

函式是初等數學中的概念,在高等數學中同樣適用,這是微積分討論的物件。有輸入,也有對應的輸出,滿足這樣的功能的都叫對映,或者函式,只不過函式更側重於數這個變數。程式設計中有引數,有 return,都叫函式,而函式的本來意思就是功能,實現一定的功能。函式是描述黑箱系統的工具,這在訊號與系統,隨機過程中尤為突出,同樣的,一個矩陣也是一個函式。函式連續性是微積分的基礎,如果沒有連續性,比如 狄利克雷函式,則無法計算微積分。

2.什麼是逼近論?

(1)逼近論是數學的一個分支。研究用較簡單的函式,如多項式、三角多項式等來代替(逼近)較複雜的函式。

(2)函式逼近論是函式論的一個重要組成部分,涉及的基本問題是函式的近似表示問題。在數學的理論研究和實際應用中經常遇到下類問題:在選定的一類函式中尋找某個函式g,使它是已知函式ƒ在一定意義下的近似表示,並求出用g近似表示 ƒ而產生的誤差。這就是函式逼近問題。

二.極限、微分、積分基本概念

1.極限

(1)極限的定義:

某一個函式中的某一個變數,此變數在變大(或者變小)的永遠變化的過程中,逐漸向某一個確定的數值A不斷地逼近而“永遠不能夠重合到A”的過程中,此變數的變化,被人為規定為“永遠靠近而不停止”、其有一個“不斷地極為靠近A點的趨勢”。

(2)極限的概念

極限是微積分的基礎。極限的思想是近代數學的一種重要思想,數學分析就是以極限概念為基礎、極限理論(包括級數)為主要工具來研究函式的一門學科。利用極限的思想方法給出如下:

  • 函式在 點連續的定義,是當自變數的增量趨於零時,函式值的增量趨於零的極限。
  • 函式在 點導數的定義,是函式值的增量 與自變數的增量 之比 ,當 時的極限。
  • 函式在 點上的定積分的定義,是當分割的細度趨於零時,積分和式的極限。
  • 數項級數的斂散性是用部分和數列 的極限來定義的。
  • 廣義積分定積分其中為任意大於的實數時的極限,等等。

2.微分

(1)微分的定義:

在數學中,微分是對函式的區域性變化的一種線性描述。微分可以近似地描述當函式自變數的變化量取值作足夠小時,函式的值是怎樣改變的。比如,x的變化量△x趨於0時,則記作微元dx。

(2)微分的概念:

微分是在導數基礎上的一個操作步驟,其基本思想是在無限短的區間段上,用導數所代表的斜率去構成的三角形去近似真正的曲線。三角形用到了直線,而一階導數就是刻畫直線,在此條件下,近似成立;反之,如果是刻畫二階微分,則用直線不可行,還必須考慮到二階小量。儘管是近似,但是當取值到極限的時候,就是真實值。由於微分從導數而來,所以微分也有各種複合運算求導法則。可微的本質含義就是可以去使用直線近似,所以,可微的條件就是滿足近似,與真實值的差值是一個高階無窮小量。若函式在某一點無法做到可微,便稱函式在該點不可微。

在古典的微積分學中,微分被定義為變化量的線性部分,在現代的定義中,微分被定義為將自變數的改變數對映到變化量的線性部分的線性對映。這個對映也被稱為切對映。給定的函式在一點的微分如果存在,就一定是唯一的。

(3)微分的公式:

formula

公式描述:公式中f'(x)為f(x)的導數。

深入瞭解:一元型 高階型 切線微分 運演算法則 微分應用

3.積分

(1)積分的定義:

積分是微積分學與數學分析裡的一個核心概念。通常分為定積分和不定積分兩種。直觀地說,對於一個給定的正實值函式,在一個實數區間上的定積分可以理解為在座標平面上,由曲線、直線以及軸圍成的曲邊梯形的面積值(一種確定的實數值)。

(2)積分的概念:

定積分是積分的一種,是函式f(x)在區間[a,b]上的積分和的極限。這裡應注意定積分與不定積分之間的關係:若定積分存在,則它是一個具體的數值(曲邊梯形的面積),而不定積分是一個函式表示式,它們僅僅在數學上有一個計算關係(牛頓-萊布尼茨公式),其它一點關係都沒有!

定積分是變數限定在一定的範圍內的積分,有範圍的。不定積分是變化範圍無限的。一個函式,可以存在不定積分,而不存在定積分,也可以存在定積分,而不存在不定積分。一個連續函式,一定存在定積分和不定積分;若只有有限個間斷點,則定積分存在;若有跳躍間斷點,則原函式一定不存在,即不定積分一定不存在。

(3)積分公式

積分是微分的逆運算,即知道了函式的導函式,反求原函式。在應用上,積分作用不僅如此,它被大量應用於求和,通俗的說是求曲邊三角形的面積,這巧妙的求解方法是積分特殊的性質決定的。主要分為定積分、不定積分以及其他積分。積分的性質主要有線性性、保號性、極大值極小值、絕對連續性、絕對值積分等。

不定積分的公式:

設  是函式f(x)的一個原函式,我們把函式f(x)的所有原函式F(x)+C(C為任意常數)叫做函式f(x)的不定積分,記作,即∫f(x)dx=F(x)+C.其中∫叫做積分號,f(x)叫做被積函式,x叫做積分變數,f(x)dx叫做被積式,C叫做積分常數,求已知函式不定積分的過程叫做對這個函式進行積分。

注:∫f(x)dx+c1=∫f(x)dx+c2, 不能推出c1=c2

定積分的公式:

對於一個給定的實函式f(x),在區間[a,b]上的定積分記為:

若f(x)在[a,b]上恆為正,可以將定積分理解為在Oxy座標平面上,由曲線(x,f(x))、直線x=a、x=b以及x軸圍成的面積值(一種確定的實數值)。

4.利用逼近的思想理解微分

微分是對一個函式的微分,以求函式的微小變化。微分概念是在解決直與曲的矛盾中產生的,在微小區域性可以用直線去近似替代曲線,它的直接應用就是函式的線性化。微分具有雙重意義:它表示一個微小的量,同時又表示一種與求導密切相關的運算。利用逼近的思想我們可以求出函式最近似的值。

5.利用積分的方式理解概率

在實際當中,經常會碰到複雜函式的定積分,雖然積分存在,但是積不出來,這時我們不得不考慮其數值計算。將定積分的近似值與某個事件的概率中的頻率保持一致。概率方法在積分中的應用

三.概率論基礎

1.前言

概率論是數理統計的基礎,也是很多機器學習模型的支撐,概率論在機器學習中佔主要地位,因為概率論為機器學習演算法的正確性提供了理論依據。概率論基礎知識

2.概率論的基本概念

(1)隨機實驗(E)

  • 可以在相同的條件下重複地進行。
  • 每次實驗的可能結果不止一個,並且事先明確知道實驗的所有可能結果。
  • 每次試驗將出現哪一個結果無法預知。

例子:拋一枚硬幣,觀察正面,反面出現的情況。

(2)樣本空間 (Ω)

隨機試驗所有可能的結果組成的集合。

(3)樣本點

樣本空間的元素,即每個可能的結果。

(4)隨機事件

隨機試驗E的樣本空間S的子集稱為隨機事件。可能發生或可能不發生的事件。

(5)基本事件

樣本空間的單個元素,一個可能結果構成的集合。

(6)必然事件(全集)、不可能事件(空集)

事件的關係與事件的運算 (類似於集合運算)。包含關係、和(並)並事件、積(交)事件、差事件、互不相容(互斥)、逆事件(對立事件)。

3.運算規律

(1)交換律

  • A∪B=B∪A
  • A∩B=B∩A

(2)結合律

  • A∪(B∪C)=(A∪B)∪C
  • A∩(B∩C)=(A∩B)∩C

(3)分配律

  • A∪(B∩C)=(A∪B)∩(A∪C)
  • A∩(B∪C)=(A∩B)∪(A∩C) 
  • A∩(B−C)=(A∩B)−(A∩C)

(4)德摩根律(對偶律)

 

常用結論:

4.古典概率模型

(1)什麼是古典概率?

古典概率通常又叫事前概率,是指當隨機事件中各種可能發生的結果及其出現的次數都可以由演繹或外推法得知,而無需經過任何統計試驗即可計算各種可能發生結果的概率。古典概率是以這樣的假設為基礎的,即隨機現象所能發生的事件是有限的、互不相容的,而且每個基本事件發生的可能性相等。概率依其計算方法不同,可分為古典概率、試驗概率和主觀概率。

(2)等可能概率

每個可能事件概率相同。 使用排列組合解決,用到分類討論,和正難則反的思路去做。

5.條件概率

設有兩個事件A和B,P(A|B) 為 B條件下A的事件發生的概率。 

  • P(A|B)是:在A情況下(已經確定條件),發生B的概率。 
  • P(AB)是:A發生,B也發生的概率。 
  • P(A|B) = P(AB)/P(B)。 
  • 反推: P(AB) = P(A|B)*P(B) 即乘法公式。 
  • 若A,B事件互相獨立,那麼乘法公式為 : P(AB) = P(A)*P(B)。

6.全概率公式與貝葉斯公式

(1)全概率公式

舉例:已知多個廠次品率(即P(A)),收每個廠的貨率(即P(C|A)),算總次品率(即P(C))。(就是多次乘法公式相加) 

P(C) = P(A)*P(C|A) + P(B)*P(C|B)。 

(2)貝葉斯公式

舉例:已知總次品率(即P(C)),多個廠次品率(即P(A)),算如果是次品,是A廠的概率(即P(A|C)) 可由全概率公式和乘法公式和條件概率公式推出。學習機器學習和模式識別的人一定都聽過貝葉斯公式。

7.常見概率分佈

常見的概率分佈大體分為兩種形式。離散概率分佈和連續概率分佈。常見的幾種概率分佈

(1)常見離散概率分佈

分為伯努力分佈、二項分佈、泊松(possion)分佈。

(2)常見連續概率分佈

分為均勻分佈、指數分佈、正態分佈與卡方分佈等等。

四.大數定理和中心極限定理

1.大數定理

俗稱"大數定律"。簡單的來講,它告訴我們在隨機事件的大量重複出現中,往往呈現幾乎必然的規律。在試驗不變的條件下,重複試驗多次,隨機事件的概率近似於它出現的頻率。平均結果的穩定性

證明大數定律的策略

切比雪夫大數定律和貝努利大數定律。

2.中心極限定理

研究何種條件下獨立隨機變數之和的極限分佈為正態分佈的一系列命題的統稱。 當樣本量N逐漸趨於無窮大時,N個抽樣樣本的均值的頻數逐漸趨於正態分佈,其對原總體的分佈不做任何要求,意味著無論總體是什麼分佈,其抽樣樣本的均值的頻數的分佈都隨著抽樣數的增多而趨於正態分佈。

3.兩者的區別

(1)大數定律是說,n只要越來越大,我把這n個獨立同分布的數加起來去除以n得到的這個樣本均值(也是一個隨機變數)會依概率收斂到真值u,但是樣本均值的分佈是怎樣的我們不知道。

(2)中心極限定理是說,n只要越來越大,這n個數的樣本均值會趨近於正態分佈,並且這個正態分佈以u為均值,sigma^2/n為方差。

(3)綜上所述,這兩個定律都是在說樣本均值性質。隨著n增大,大數定律說樣本均值幾乎必然等於均值。中心極限定律說,他越來越趨近於正態分佈。並且這個正態分佈的方差越來越小。直觀上來講,想到大數定律的時候,你腦海裡浮現的應該是一個樣本,而想到中心極限定理的時候腦海裡應該浮現出很多個樣本。

五.協方差(矩陣)和相關係數

1.協方差的定義

協方差(Covariance)在概率論和統計學中用於衡量兩個變數的總體誤差。而方差是協方差的一種特殊情況,即當兩個變數是相同的情況。協方差表示的是兩個變數的總體的誤差,這與只表示一個變數誤差的方差不同。 如果兩個變數的變化趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身的期望值,那麼兩個變數之間的協方差就是正值。 如果兩個變數的變化趨勢相反,即其中一個大於自身的期望值,另外一個卻小於自身的期望值,那麼兩個變數之間的協方差就是負值。

直觀理解:

  • 如果兩個變數的協方差為正,說明它們的變化方向相同。
  • 如果兩個變數的協方差為負,說明它們的變化方向相反。
  • 如果兩個變數的協方差為0,說明兩個變數不相關。

2.協方差矩陣

假如有X1,X2,X3,...Xn一組變數,那麼協方差矩陣,矩陣中的第i行第j列的元素X[i,j]表示變數Xi和Xj的協方差,容易知道協方差矩陣是對稱矩陣,因為X[i,j] = X[j,i]。

協方差可以用來衡量兩個變數間的相似性,如果協方差越大(正數)兩個變數越相似,如果協方差越小(負數),兩個變數越相反,如果協方差為0,說明兩個變數不相關。

在機器學習中,往往一個樣本資料有很多個特徵,基於協方差可以用來篩選特徵,也就是剔除掉那些很相似的特徵。

3.相關係數

(1)協方差的上界

有X,Y變數,直觀的我們可以理解,變數X和自己本身的協方差肯定要大於等於變數X和Y的協方差,因為變數X和自己本身的變化趨勢是完全一樣的,所以給出下面的式子:var(X)代表X變數的方差

cov(X,Y) = |E(XY) - E(X)E(Y)| <=cov(X,X) = E(X^2) - E(X)*E(X)=var(X)=delta1^2    記為T1

cov(X,Y) = |E(XY) - E(X)E(Y)| <=cov(Y,Y) = E(Y^2) - E(Y)*E(Y)=var(Y)=delat2^2     記為T2

當X和Y線性相關時取得等號

因為T1,T2左右兩邊都是正數,我們同時對這兩個式子左右兩邊取根號然後乘起來,可以得到

cov(X,Y) <=delta1*delta2,delta就是方差開方得到的,這就是協方差的上界。

(2)相關係數的定義

相關係數是用以反映變數之間相關關係密切程度的統計指標。相關係數實際上也是用來衡量兩個變數之間的變化趨勢是否相似,只是相關係數的值限定到<1。相關係數絕對值是 小於等於1的。自性關係數為1 。公式如下:

由協方差的上界很容易得到:

(3)相關係數矩陣

和協方差矩陣的定義類似,只是矩陣中元素的值變位相關係數而已。

在機器學習中特徵數較多時(比如影象處理),可以用相關係數矩陣來篩選特徵。

六.最大似然估計(MLE和最大後驗估計(MAP

1.概率和統計是一個東西嗎?

概率(probabilty)和統計(statistics)看似兩個相近的概念,其實研究的問題剛好相反。

概率研究的問題是,已知一個模型和引數,怎麼去預測這個模型產生的結果的特性(例如均值,方差,協方差等等)。 舉個例子,我想研究怎麼養豬(模型是豬),我選好了想養的品種、餵養方式、豬棚的設計等等(選擇引數),我想知道我養出來的豬大概能有多肥,肉質怎麼樣(預測結果)。

統計研究的問題則相反。統計是,有一堆資料,要利用這堆資料去預測模型和引數。仍以豬為例。現在我買到了一堆肉,通過觀察和判斷,我確定這是豬肉(這就確定了模型。在實際研究中,也是通過觀察資料推測模型是/像高斯分佈的、指數分佈的、拉普拉斯分佈的等等),然後,可以進一步研究,判定這豬的品種、這是圈養豬還是跑山豬還是網易豬,等等(推測模型引數)。

一句話總結:概率是已知模型和引數,推資料。統計是已知資料,推模型和引數。MLE和MAP都是統計領域的問題。它們都是用來推測引數的方法。詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解

2.最大似然估計(MLE)

似然(likelihood)這個詞其實和概率(probability)是差不多的意思。但是在統計裡面,似然函式和概率函式卻是兩個不同的概念(其實也很相近就是了)。

對於這個函式:P(x|θ)

輸入有兩個:x表示某一個具體的資料;θ表示模型的引數。

  • 如果θ是已知確定的,x是變數,這個函式叫做概率函式(probability function),它描述對於不同的樣本點x,其出現概率是多少。
  • 如果x是已知確定的,θ是變數,這個函式叫做似然函式(likelihood function), 它描述對於不同的模型引數,出現x這個樣本點的概率是多少。

最大似然估計,顧名思義,就是要最大化這個函式。當θ似然函式取得最大值,就認為概率是這個值。有的人不相信這個數值,導致後來要考慮先驗概率。 為此,引入了最大後驗概率估計。

3.最大後驗估計(MAP)

最大似然估計是求引數θ, 使似然函式P(x0|θ)最大。最大後驗概率估計則是想求θ使P(x0|θ)最大。求得的θ不單單讓似然函式大,θ自己出現的先驗概率也得大。

最後的總結:MAP就是多個作為因子的先驗概率P(θ)。或者,也可以反過來,認為MLE是把先驗概率P(θ)認為等於1,即認為θ是均勻分佈。