1. 程式人生 > >推薦系統中所需的概率論與數理統計知識

推薦系統中所需的概率論與數理統計知識

前言

    一個月餘前,在微博上感慨道,不知日後是否有無機會搞DM,微博上的朋友只看不發的圍脖評論道:演算法研究領域,那裡要的是數學,你可以深入學習數學,將演算法普及當興趣。想想,甚合我意。自此,便從rickjin寫的“正態分佈的前世今生”開始研習數學。

    如之前微博上所說,“今年5月接觸DM,循序學習決策樹.貝葉斯,SVM.KNN,感數學功底不足,遂補數學,從‘正態分佈的前後今生’中感到數學史有趣,故買本微積分概念發展史讀,在歎服前人偉大的創造之餘,感微積分概念模糊,複習高等數學上冊,完後學概率論與數理統計,感概道:微積分是概數統計基礎,概數統計則是DM&ML之必修課

。”包括讀者相信也已經感覺到,我在寫這個Top 10 Algorithms in Data Mining系列的時候,其中涉及到諸多的數學概念與基礎知識(例如此篇SVM文章內諸多max.s.t.對偶.KKT條件.拉格朗日.鬆弛因子等問題則皆屬於數學內一分支:最優化理論與演算法範疇內),特別是概率論與數理統計部分。更進一步,在寫上一篇文章的時候,看到機器學習中那麼多距離度量的表示法,發現連最起碼的期望,方差,標準差等基本概念都甚感模糊,於此,便深感數學之重要性。

    很快,我便買了一本高等教育出版社出版的概率論與數理統計一書,此書從0-1分佈、到二項分佈、正態分佈,概率密度函式,從期望到方差、標準差、協方差,中心極限定理,樣本和抽樣,從最大似然估計量到各種置信區間,從方差分析到迴歸分析,bootstrap方法,最後到馬爾可夫鏈,以前在學校沒開概率論與數理統計這門課,現在有的學有的看了

”。且人類發明計算機,是為了輔助人類解決現實生活中遇到的問題,然電腦科學畢竟只發展了數十年,可在數學.統計學中,諸多現實生活問題已經思考了數百年甚至上千年,故,計算機若想更好的服務人類解決問題,須有效借鑑或參考數學.統計學。世間萬事萬物,究其本質乃數學,於變化莫測中尋其規律謂之統計學。

    話休絮煩。本文結合高等數學上下冊微積分概念發展史概率論與數理統計數理統計學簡史等書,及rickjin寫的“正態分佈的前世今生”系列(此文亦可看作讀書筆記或讀後感)與整理而成,對資料探勘中所需的概率論與數理統計相關知識概念作個總結梳理,方便你我隨時檢視複習相關概念,而欲深入學習研究的課後還需參看相關專業書籍.資料。同時,本文篇幅會比較長,簡單來說:

  1. 第一節、介紹微積分中極限、導數,微分、積分等相關概念;
  2. 第二節、介紹隨機變數及其分佈;
  3. 第三節、介紹數學期望.方差.協方差.相關係數.中心極限定理等概念;
  4. 第四節、依據數理統計學簡史介紹正態分佈的前後由來;
  5. 第五節、論道正態,介紹正態分佈的4大數學推導。

    5部分起承轉合,彼此依託,層層遞進。且在本文中,會出現諸多並不友好的大量各種公式,但基本的概念.定理是任何複雜問題的根基,所以,你我都有必要硬著頭皮好好細細閱讀。最後,本文若有任何問題或錯誤,懇請廣大讀者朋友們不吝批評指正,謝謝。

第一節、微積分的基本概念

    開頭前言說,微積分是概數統計基礎,概數統計則是DM&ML之必修課”,是有一定根據的,包括後續數理統計當中,如正態分佈的概率密度函式中用到了相關定積分的知識,包括最小二乘法問題的相關探討求證都用到了求偏導數的等概念,這些都是跟微積分相關的知識。故咱們第一節先複習下微積分的相關基本概念。

    事實上,古代數學中,單單無窮小、無窮大的概念就討論了近200年,而後才由無限發展到極限的概念。

1.1、極限

    極限又分為兩部分:數列的極限和函式的極限。

1.1.1、數列的極限

    定義  如果數列{xn}與常a 有下列關係:對於任意給定的正數e (不論它多麼小), 總存在正整數N , 使得對於n >N 時的一切xn, 不等式 |xn-a |<e都成立, 則稱常數a 是數列{xn}的極限, 或者稱數列{xn}收斂於a , 記為

    也就是說,

1.1.2、函式的極限

    設函式f(x)在點x0的某一去心鄰域內有定義. 如果存在常數A, 對於任意給定的正數e (不論它多麼小), 總存在正數d, 使得當x滿足不等式0<|x-x0|<d 時, 對應的函式值f(x)都滿足不等式     |f(x)-A|<e , 那麼常數A就叫做函式f(x)時的極限, 記為

    也就是說,

    幾乎沒有一門新的數學分支是某個人單獨的成果,如笛卡兒和費馬的解析幾何不僅僅是他們兩人研究的成果,而是若干數學思潮在16世紀和17世紀匯合的產物,是由許許多多的學者共同努力而成。

    甚至微積分的發展也不是牛頓與萊布尼茨兩人之功。在17世紀下半葉,數學史上出現了無窮小的概念,而後才發展到極限,到後來的微積分的提出。然就算牛頓和萊布尼茨提出了微積分,但微積分的概念尚模糊不清,在牛頓和萊布尼茨之後,後續經過一個多世紀的發展,諸多學者的努力,才真正清晰了微積分的概念。

    也就是說,從無窮小到極限,再到微積分定義的真正確立,經歷了幾代人幾個世紀的努力,而課本上所呈現的永遠只是冰山一角。

1.2、導數

    設有定義域和取值都在實數域中的函式。若在點的某個鄰域內有定義,則當自變數處取得增量(點仍在該鄰域內)時,相應地函式取得增量;如果之比當時的極限存在,則稱函式在點處可導,並稱這個極限為函式在點處的導數,記為。     即:

    也可記為:

1.3、微分

    設函式在某區間內有定義。對於內一點,當變動到附近的也在此區間內)時。如果函式的增量可表示為(其中是不依賴於的常數),而是比高階的無窮小,那麼稱函式在點是可微的,且稱作函式在點相應於自變數增量的微分,記作,即的線性主部。通常把自變數的增量稱為自變數的微分,記作,即。      實際上,前面講了導數,而微積分則是在導數的基礎上加個字尾,即為:

1.4、積分 

    積分是微積分學與數學分析裡的一個核心概念。通常分為定積分和不定積分兩種。 不定積分的定義     一個函式的不定積分,也稱為原函式或反導數,是一個導數等於的函式,即
    不定積分的有換元積分法,分部積分法等求法。 定積分的定義     直觀地說,對於一個給定的正實值函式,在一個實數區間上的定積分
    定積分與不定積分區別在於不定積分便是不給定區間,也就是說,上式子中,積分符號沒有a、b。下面,介紹定積分中值定理。     如果函式f(x)在閉區間[a,b]上連續, 則在積分割槽間[a,b]上至少存在一個點,使下式成立:
這個公式便叫積分中值公式。
牛頓-萊布尼茨公式     接下來,咱們講介紹微積分學中最重要的一個公式:牛頓-萊布尼茨公式。      如果函式F (x)是連續函式f(x)在區間[a, b]上的一個原函式, 則
    此公式稱為牛頓-萊布尼茨公式, 也稱為微積分基本公式。這個公式由此便打通了原函式與定積分之間的聯絡,它表明:一個連續函式在區間[a, b]上的定積分等於它的任一個原函式在區間[a, b]上的增量,如此,便給定積分提供了一個有效而極為簡單的計算方法,大大簡化了定積分的計算手續。     下面,舉個例子說明如何通過原函式求取定積分。     如要計算,由於的一個原函式,所以

1.5、偏導數

    對於二元函式z = f(x,y) 如果只有自變數x 變化,而自變數y固定 這時它就是x的一元函式,這函式對x的導數,就稱為二元函式z = f(x,y)對於x的偏導數。
    定義  設函式z = f(x,y)在點(x0,y0)的某一鄰域內有定義,當y固定在y0而x在x0處有增量時,相應地函式有增量
    如果極限
    存在,則稱此極限為函式z = f(x,y)在點(x0,y0)處對 x 的偏導數,記作:
    例如。類似的,二元函式對y求偏導,則把x當做常量。     此外,上述內容只講了一階偏導,而有一階偏導就有二階偏導,這裡只做個簡要介紹,具體應用具體分析,或參看高等數學上下冊相關內容。接下來,進入本文的主題,從第二節開始。

第二節、離散.連續.多維隨機變數及其分佈

2.1、幾個基本概念點

(一)樣本空間

         定義:隨機試驗E的所有結果構成的集合稱為E的 樣本空間,記為S={e},
        稱S中的元素e為樣本點,一個元素的單點集稱為基本事件.

(二)條件概率

  1. 條件概率就是事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示為P(A|B),讀作“在B條件下A的概率”。
  2. 聯合概率表示兩個事件共同發生的概率。A與B的聯合概率表示為或者
  3. 邊緣概率是某個事件發生的概率。邊緣概率是這樣得到的:在聯合概率中,把最終結果中不需要的那些事件合併成其事件的全概率而消失(對離散隨機變數用求和得全概率,對連續隨機變數用積分得全概率)。這稱為邊緣化(marginalization)。A的邊緣概率表示為P(A),B的邊緣概率表示為P(B)。 
 在同一個樣本空間Ω中的事件或者子集A與B,如果隨機從Ω中選出的一個元素屬於B,那麼這個隨機選擇的元素還屬於A的概率就定義為在B的前提下A的條件概率。從這個定義中,我們可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到
    有時候也稱為後驗概率。     同時,P(A|B)與P(B|A)的關係如下所示:
    。 

(三)全概率公式和貝葉斯公式

    1、全概率公式     假設{ Bn : n = 1, 2, 3, ... } 是一個概率空間的有限或者可數無限的分割,且每個集合Bn是一個可測集合,則對任意事件A有全概率公式:
    又因為
    所以,此處Pr(A | B)是B發生後A的條件概率,所以全概率公式又可寫作:

     在離散情況下,上述公式等於下面這個公式:。但後者在連續情況下仍然成立:此處N是任意隨機變數。這個公式還可以表達為:"A的先驗概率等於A的後驗概率的先驗期望值。      2、貝葉斯公式     貝葉斯定理(Bayes' theorem),是概率論中的一個結果,它跟隨機變數的條件概率以及邊緣概率分佈有關。在有些關於概率的解說中,貝葉斯定理(貝葉斯更新)能夠告知我們如何利用新證據修改已有的看法。
    通常,事件A在事件B(發生)的條件下的概率,與事件B在事件A的條件下的概率是不一樣的;然而,這兩者是有確定的關係,貝葉斯定理就是這種關係的陳述。     如此篇blog第二部分所述“據維基百科上的介紹,貝葉斯定理實際上是關於隨機事件A和B的條件概率和邊緣概率的一則定理。
   如上所示,其中P(A|B)是在B發生的情況下A發生的可能性。在貝葉斯定理中,每個名詞都有約定俗成的名稱:
  • P(A)是A的先驗概率或邊緣概率。之所以稱為"先驗"是因為它不考慮任何B方面的因素。
  • P(A|B)是已知B發生後A的條件概率(直白來講,就是先有B而後=>才有A),也由於得自B的取值而被稱作A的後驗概率。
  • P(B|A)是已知A發生後B的條件概率(直白來講,就是先有A而後=>才有B),也由於得自A的取值而被稱作B的後驗概率。
  • P(B)是B的先驗概率或邊緣概率,也作標準化常量(normalized constant)。
    按這些術語,Bayes定理可表述為:後驗概率 = (相似度*先驗概率)/標準化常量,也就是說,後驗概率與先驗概率和相似度的乘積成正比。另外,比例P(B|A)/P(B)也有時被稱作標準相似度(standardised likelihood),Bayes定理可表述為:後驗概率 = 標準相似度*先驗概率。”     綜上,自此便有了一個問題,如何從從條件概率推導貝葉斯定理呢?

     根據條件概率的定義,在事件B發生的條件下事件A發生的概率是

    同樣地,在事件A發生的條件下事件B發生的概率

     整理與合併這兩個方程式,我們可以找到

     這個引理有時稱作概率乘法規則。上式兩邊同除以P(B),若P(B)是非零的,我們可以得到貝葉斯定理

2.2、隨機變數及其分佈

2.2.1、何謂隨機變數

    何謂隨機變數?即給定樣本空間,其上的實值函式稱為(實值)隨機變數。

    如果隨機變數的取值是有限的或者是可數無窮盡的值,則稱為離散隨機變數(用白話說,此類隨機變數是間斷的)。
    如果由全部實數或者由一部分割槽間組成,則稱為連續隨機變數,連續隨機變數的值是不可數及無窮盡的(用白話說,此類隨機變數是連續的,不間斷的):

    也就是說,隨機變數分為離散型隨機變數,和連續型隨機變數,當要求隨機變數的概率分佈的時候,要分別處理之,如:

  • 針對離散型隨機變數而言,一般以加法的形式處理其概率和;
  • 而針對連續型隨機變數而言,一般以積分形式求其概率和。

    再換言之,對離散隨機變數用求和得全概率,對連續隨機變數用積分得全概率。這點包括在第4節中相關期望.方差.協方差等概念會反覆用到,望讀者注意之。

2.2.2、離散型隨機變數的定義

    定義:取值至多可數的隨機變數為離散型的隨機變數。概率分佈(分佈律)為
    且

(一)(0-1)分佈

     若X的分佈律為:
     同時,p+q=1,p>0,q>0,則則稱X服從引數為p的0-1分佈,或兩點分佈。     此外,(0-1)分佈的分佈律還可表示為:
    或
    
    我們常說的拋硬幣實驗便符合此(0-1)分佈。

(二)、二項分佈

    二項分佈是n個獨立的是/非試驗中成功的次數的離散概率分佈,其中每次試驗的成功概率為p。這樣的單次成功/失敗試驗又稱為伯努利試驗。舉個例子就是,獨立重複地拋n次硬幣,每次只有兩個可能的結果:正面,反面,概率各佔1/2。
    設A在n重貝努利試驗中發生X次,則
    並稱X服從引數為p的二項分佈,記為:
    與此同時,

(三)、泊松分佈(Poisson分佈)

        Poisson分佈(法語:loi de Poisson,英語:Poisson distribution),即泊松分佈,是一種統計與概率學裡常見到的離散概率分佈,由法國數學家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時發表。     若隨機變數X的概率分佈律為
    稱X服從引數為λ的泊松分佈,記為:
    有一點提前說一下,泊松分佈中,其數學期望與方差相等,都為引數λ。  泊松分佈的來源     在二項分佈的伯努力試驗中,如果試驗次數n很大,二項分佈的概率p很小,且乘積λ= n p比較適中,則事件出現的次數的概率可以用泊松分佈來逼近。事實上,二項分佈可以看作泊松分佈在離散時間上的對應物。證明如下。     首先,回顧e的定義:
    二項分佈的定義:
    如果令趨於無窮時的極限:
    上述過程表明:Poisson(λ) 分佈可以看成是二項分佈 B(n,p) 在 np=λ,n→∞ 條件下的極限分佈。 最大似然估計     給定n個樣本值ki,希望得到從中推測出總體的泊松分佈引數λ的估計。為計算最大似然估計值, 列出對數似然函式:
    對函式L取相對於λ的導數並令其等於零:
    解得λ從而得到一個駐點(stationary point):
    檢查函式L的二階導數,發現對所有的λ 與ki大於零的情況二階導數都為負。因此求得的駐點是對數似然函式L的極大值點:
    證畢。OK,上面內容都是針對的離散型隨機變數,那如何求連續型隨機變數的分佈律呢?請接著看以下內容。

2.2.3、隨機變數分佈函式定義的引出

    實際中,如上2.2.2節所述,
  • 對於離散型隨機變數而言,其所有可能的取值可以一一列舉出來,
  • 可對於非離散型隨機變數,即連續型隨機變數X而言,其所有可能的值則無法一一列舉出來,
    故連續型隨機變數也就不能像離散型隨機變數那