人工智慧數學基礎——概率論
除了線性代數之外,概率論(probability theory)也是人工智慧研究中必備的數學基礎。隨著連線主義學派的興起,概率統計已經取代了數理邏輯,成為人工智慧研究的主流工具。
同線性代數一樣,概率論也代表了一種看待世界的方式,其關注的焦點是無處不在的可能性。對隨機事件發生的可能性進行規範的數學描述就是概率論的公理化過程。概率的公理化結構體現出的是對概率本質的一種認識。
將同一枚硬幣拋擲 10 次,其正面朝上的次數既可能一次沒有,也可能全部都是,換算成頻率就分別對應著 0% 和 100%。頻率本身顯然會隨機波動,但隨著重複試驗的次數不斷增加,特定事件出現的頻率值就會呈現出穩定性,逐漸趨近於某個常數。
從事件發生的頻率認識概率的方法被稱為“頻率學派”(frequentist probability),頻率學派口中的“概率”,其實是一個可獨立重複的隨機實驗中單個結果出現頻率的極限。因為穩定的頻率是統計規律性的體現,因而通過大量的獨立重複試驗計算頻率,並用它來表徵事件發生的可能性是一種合理的思路。
在概率的定量計算上,頻率學派依賴的基礎是古典概率模型。在古典概率模型中,試驗的結果只包含有限個基本事件,且每個基本事件發生的可能性相同。假設所有基本事件的數目為 n,待觀察的隨機事件 A 中包含的基本事件數目為 k,則古典概率模型下事件概率的計算公式為:
從這個基本公式就可以推匯出複雜的隨機事件的概率。
前文中的概率定義針對都是單個隨機事件,可如果要刻畫兩個隨機事件之間的關係,這就需要引入條件概率的概念。
條件概率(conditional probability)是根據已有資訊對樣本空間進行調整後得到的新的概率分佈。假定有兩個隨機事件 和,條件概率就是指事件 在事件 已經發生的條件下發生的概率,用以下公式表示:
上式中的稱為聯合概率(joint probability),表示的是 和 兩個事件共同發生的概率。如果聯合概率等於兩個事件各自概率的乘積,即
基於條件概率可以得出全概率公式(law of total probability)。全概率公式的作用在於將複雜事件的概率求解轉化為在不同情況下發生的簡單事件的概率求和,即:
全概率公式代表了頻率學派解決概率問題的思路,即先做出一些假設,再在這些假設下討論隨機事件的概率。
對全概率公式 進行整理,就演化出了求解“逆概率”問題。所謂“逆概率”解決的是在事件結果已經確定的條件下,推斷各種假設發生的可能性。其通用的公式形式被稱為貝葉斯公式:
貝葉斯公式可以進一步抽象為貝葉斯定理(Bayes’ theorem):
式中的 被稱為先驗概率(prior probability),即預先設定的假設成立的概率;被稱為似然概率(likelihood function),是在假設成立的前提下觀測到結果的概率;被稱為後驗概率(posterior probability),即在觀測到結果的前提下假設成立的概率。
從科學研究的方法論來看,貝葉斯定理提供了一種全新的邏輯。它根據觀測結果尋找合理的假設,或者說根據觀測資料尋找最佳的理論解釋,其關注的焦點在於後驗概率。概率論的貝葉斯學派(Bayesian probability)正是誕生於這種理念。
在貝葉斯學派眼中,概率描述的是隨機事件的可信程度。
頻率學派認為假設是客觀存在且不會改變的,即存在固定的先驗分佈。因而在計算具體事件的概率時,要先確定概率分佈的型別和引數,以此為基礎進行概率推演。
相比之下,貝葉斯學派則認為固定的先驗分佈是不存在的,引數本身也是隨機數。換句話說,假設本身取決於觀察結果,是不確定並且可以修正的。資料的作用就是對假設做出不斷的修正,使觀察者對概率的主觀認識更加接近客觀實際。
概率論是線性代數之外,人工智慧的另一個理論基礎,多數機器學習模型採用的都是基於概率論的方法。但由於實際任務中可供使用的訓練資料有限,因而需要對概率分佈的引數進行估計,這也是機器學習的核心任務。
概率的估計有兩種方法:最大似然估計法(maximum likelihood estimation)和最大後驗概率法(maximum a posteriori estimation),兩者分別體現出頻率學派和貝葉斯學派對概率的理解方式。
最大似然估計法的思想是使訓練資料出現的概率最大化,依此確定概率分佈中的未知引數,估計出的概率分佈也就最符合訓練資料的分佈。最大後驗概率法的思想則是根據訓練資料和已知的其他條件,使未知引數出現的可能性最大化,並選取最可能的未知引數取值作為估計值。在估計引數時,最大似然估計法只需要使用訓練資料,最大後驗概率法除了資料外還需要額外的資訊,就是貝葉斯公式中的先驗概率。
具體到人工智慧這一應用領域,基於貝葉斯定理的各種方法與人類的認知機制吻合度更高,在機器學習等領域中也扮演著更加重要的角色。
概率論的一個重要應用是描述隨機變數(random variable)。根據取值空間的不同,隨機變數可以分成兩類:離散型隨機變數(discrete random variable)和連續型隨機變數(continuous random variable)。在實際應用中,需要對隨機變數的每個可能取值的概率進行描述。
離散變數的每個可能的取值都具有大於 0 的概率,取值和概率之間一一對應的關係就是離散型隨機變數的分佈律,也叫概率質量函式(probability mass function)。概率質量函式在連續型隨機變數上的對應就是概率密度函式(probability density function)。
概率密度函式體現的並非連續型隨機變數的真實概率,而是不同取值可能性之間的相對關係。對連續型隨機變數來說,其可能取值的數目為不可列無限個,當歸一化的概率被分配到這無限個點上時,每個點的概率都是個無窮小量,取極限的話就等於零。而概率密度函式的作用就是對這些無窮小量加以區分。雖然在時,