1. 程式人生 > >PRML第一章讀書小結

PRML第一章讀書小結

PRML第一章讀書小結

    第一章用例子出發,較為簡單的引入了概率論、模型、決策、損失、資訊理論的問題,作為機器學習從業者,讀PRML除了鞏固已有基礎,還受到了很多新的啟發,下面將我收到的啟發總結如下。

1. 多項式曲線擬合問題

多項式擬合問題作為全書的第一個引例,通過此說明了很多關鍵的概念。

給定一個訓練集,訓練集由\(x\)的N次觀測組成,記作\(\mathbf{x} \equiv\left(x_{1}, \cdots, x_{N}\right)^{T}\),對應了相應的觀測值\(t\),記作\(\mathbf{t} \equiv\left(t_{1}, \cdots, t_{N}\right)^{T}\)。它們擁有了一個內在的規律,這個規律是我們想要學習的,但是同時獨立的觀察會被隨機噪聲所幹擾。我們的目標是利用這個訓練集預測輸入變數的新值,我們需要隱式地發現內在的函式\(sin(2\pi x)\),由於有限的觀察和噪聲的,發現這一函式(\(sin(2\pi x)\))很難。

概率論提供了一個框架,用精確的數學形式描述這種不確定性。決策論讓我們能夠根據合適的標準,利用這種概率的表示,進行最優的預測。

我們經常用多項式函式進行曲線擬合,即\(y(x, \boldsymbol{w})=w_{0}+w_{1} x+w_{2} x^{2}+\ldots+w_{M} x^{M}=\sum_{j=0}^{M} w_{j} x^{j}\),係數的值\(w\)通過擬合訓練資料的方式確定,M作為多項式的階數是模型對比(model comparison)、模型選擇(model selection)的重要問題的一個特例。擬合時,我們通過最小化誤差函式(error function)的方法實現,一個簡單的最小化誤差函式如下:
\[ E(\boldsymbol{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \boldsymbol{w}\right)-t_{n}\right\}^{2} \]

我們發現過小的M擬合效果非常差,而高階的M完美擬合了資料,但是曲線劇烈震盪,就表達函式\(sin(2\pi x)\)來說表現很差,這便是過擬合。

我們的目標是通過對新資料的預測實現良好的泛化性,於是我們考慮一個額外的訓練集,生成方式和之前的訓練集完全相同,但是包含的噪聲不同,對於每個M的選擇,我們可以利用誤差函式,或者均方根誤差(RMS)衡量:
\[ E_{R M S}=\sqrt{2 E\left(\boldsymbol{w}^{*}\right) / N} \]
N保證了以相同的基礎對比不同大小的資料集,平方根保證了\(E_{RMS}\)與目標變數\(t\)使用相同的規模和單位進行度量。

我們發現M的值適中時,均方根誤差較小。M特別大的時候,測試誤差很大(即過擬合)。進一步思考這個問題,我們發現,對於一個給定的模型複雜度(M給定),資料集規模增加,過擬合問題變得不那麼嚴重,或者說,資料集規模越大,我們能用來擬合數據的模型就越複雜(靈活)。一個粗略的啟發是:資料點的數量不應該小於模型的可調節引數的若干倍。我們根據待解決問題的複雜性來選擇模型的複雜性,過擬合現象是極大似然的一個通用屬性,而通過貝葉斯方法,過擬合問題可以被避免。

目前,我們使用正則化(regularization)技術控制過擬合, 即增加一個懲罰項,使得係數不會達到一個很大的值,如下例是加入平方懲罰項的誤差函式:
\[ \tilde{E}(\boldsymbol{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \boldsymbol{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\boldsymbol{w}\|^{2} \]
正則化後的進行多項式擬合效果就能達到一個理想的值。

之後,作者在重新考察曲線擬合問題時,提到了最大化似然函式和最小化平方和誤差函式,而最大化後驗概率等價於最小化正則化的誤差函式。

2. 概率論

文章首先通過簡單的例子說明了概率論的基本思想,然後表示了概率論的兩條基本規則:

加和規則sum rule: \(p(X)=\sum_{Y} p(X, Y)\)
乘積規則product rule: \(p(X, Y)=p(Y | X) p(X)\)

這兩個規則是機器學習全部概率推導的基礎。

根據乘積規則,我們得到貝葉斯定理:
\[ p(Y | X)=\frac{p(X | Y) p(Y)}{p(X)}=\frac{p(X | Y) p(Y)}{\sum_{Y} p(X | Y) p(Y)} \]
其中,\(p(Y)\)稱為先驗概率(\(prior\)),即根據先驗知識得出的關於變數\(Y\)的分佈,\(p(X|Y)\)稱為似然函式(\(likelihood\)),\(p(X)\)為變數\(X\)的概率,\(p(Y|X)\)稱之為條件概率(給定變數\(X\)的情況下\(Y\)的概率,\(posterior\),後驗概率)。

在連續空間中,一個實值變數\(x\)的概率落在區間\((x,x+\delta x)\)的概率由\(p(x)\delta x\)給出(\(\delta x →0\)),那麼\(p(x)\)稱為\(x\)的概率密度(probability density),\(x\)在區間\((a,b)\)的概率由下式給出:
\[ p(x \in(a, b))=\int_{a}^{b} p(x) \mathrm{d} x \]
概率密度是處處大於0且歸一化的。

離散變數的期望值(expectation)的定義為:
\[ \mathbb{E}[f]=\sum_{x} p(x) f(x) \]
連續變數的期望值:
\[ \mathbb{E}[f]=\int p(x) f(x) \mathrm{d} x \]
方差(variance)的定義:
\[ \operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right] \]

\[ =\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2} \]

它度量了\(f(x)\)在均值\(\mathbb{E}[f(x)]\)附近變化性的大小。

協方差(covariance)的定義:
\[ \operatorname{cov}[x, y]=\mathbb{E}_{x, y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}] \]

\[ =\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y] \]

它表示在多大程度上\(x\)和\(y\)會共同變化,如果獨立,協方差為0.

2.1 概率論之貝葉斯學派和頻率學派

    頻率學派試圖從自然的角度出發,試圖直接為事件建模,即事件A在獨立重複實驗中發生的頻率趨於極限P,那麼這個極限就是事件的概率。

    貝葉斯學派並不試圖刻畫事件本身,而是從觀察者角度。貝葉斯學派並不認為事件本身是隨機的,而是從觀察者知識不完備這一出發點開始,構造一套貝葉斯概率論的框架下可以對不確定知識作出推斷的方法。即不認為事件本身具有某種客觀的隨機性,而只是觀察者不知道事件的結果。

    頻率學派廣泛使用極大似然進行估計,使得似然函式\(p(\mathcal{D} | \boldsymbol{w})\)達到最大。貝葉斯學派廣泛使用先驗概率。

    補充:根據知乎某大佬所言:頻率學派和貝葉斯學派最大差別是產生在對引數空間的認知上。頻率學派並不關心引數空間的所有細節,而相信資料都是在某個引數值下產生的,所以頻率學派從“那個值最有可能是真實值”出發的。有了極大似然和置信區間。貝葉斯學派關心引數空間的每一個值,我們又沒有上帝視角,怎麼可能知道哪個值是真的,引數空間的每個值都有可能是真實模型使用的值,只是概率不同。

參考:https://www.zhihu.com/question/20587681

2.2 高斯分佈

    高斯分佈算是模式識別裡面的重點難點,在第一章裡面簡要介紹了其一些簡單性質,總結如下:

一元高斯分佈:
\[ \mathcal{N}\left(x | \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{\frac{1}{2}}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} \]

高斯分佈滿足恆大於0:
\[ \mathcal{N}\left(x | \mu, \sigma^{2}\right)>0 \]
高斯分佈是歸一化的:
\[ \int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) \mathrm{d} x=1 \]

高斯分佈的期望:
\[ \mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) x \mathrm{d} x=\mu \]
二階矩:
\[ \mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) x^{2} \mathrm{d} x=\mu^{2}+\sigma^{2} \]
方差:
\[ \operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2} \]
分佈的最大值被稱為眾數,高斯分佈的眾數與均值恰好相等。

假定一個觀測資料集是獨立從高斯分佈中抽取(independent and identically distributed, i.i.d.),分佈均值\(\mu\)和方差\(\sigma^2\)未知。資料集的概率:
\[ p\left(\mathbf{x} | \mu, \sigma^{2}\right)=\prod_{n=1}^{N} \mathcal{N}\left(x_{n} | \mu, \sigma^{2}\right) \]
當我們把它看做引數的函式的時候,這就是高斯分佈的似然函式。之後我們利用極大似然法尋找似然函式取得最大值的引數值。同時書中提到了:給定資料集下最大化概率的引數和給定引數的情況下最大化資料集出現的概率是相關的。

高斯分佈的最大似然解:\(\mu_{M L}=\frac{1}{N} \sum_{n=1}^{N} x_{n}\),\(\sigma_{M L}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{M L}\right)^{2}\)

高斯分佈的極大似然估計對均值的估計是無偏的,對方差的估計是有偏的(低估)。

3.模型選擇

在曲線擬合中,存在一個最優的多項式階數。實際情況中,我們可能存在多個控制模型複雜度的引數,同時存在過擬合現象,所以我們需要一個驗證集。而資料有限,所以需要交叉驗證,S-1組進行訓練,1組進行評估,執行S次。但是存在一個問題就是訓練本身很耗時。

4. 維數災難

隨著維數的變高,我們需要指數級的訓練資料。對於高維資料,高斯分佈的概率質量集中在薄球殼上。這對我們的模型產生了極大地困難。

5. 決策論

  1. 最小化錯誤分類率。把每個點分在後驗概率最大的類別中,那麼我們分類錯誤的概率就會最小。
  2. 最小化期望損失。損失函式(代價函式)最小。
  3. 拒絕選項。對於低於閾值的概率,拒絕作出識別,拒絕決策帶來的損失可以放在損失矩陣中。

6.資訊理論

隨機變數的熵:\(H[x]=-\sum_{x} p(x) \log _{2} p(x)\)

熵是傳輸一個隨機變數狀態值所需的位元位的下界。

相對熵:\(\mathrm{KL}(p \| q)=-\int p(\boldsymbol{x}) \ln \left\{\frac{q(\boldsymbol{x})}{p(\boldsymbol{x})}\right\} \mathrm{d} \boldsymbol{x}\)

相對熵也被稱之為KL散度,不對稱。當且僅當\(p=q\)時,等號成立。

最小化KL散度等價於最大化似然函式(p為真實分佈,q為給定分佈)。

互資訊:
\[ \begin{aligned}I[\boldsymbol{x}, \boldsymbol{y}] & \equiv \mathrm{KL}(p(\boldsymbol{x}, \boldsymbol{y}) \| p(\boldsymbol{x}) p(\boldsymbol{y})) \\&=-\iint p(\boldsymbol{x}, \boldsymbol{y}) \ln \left(\frac{p(\boldsymbol{x}) p(\boldsymbol{y})}{p(\boldsymbol{x}, \boldsymbol{y})}\right) \mathrm{d} \boldsymbol{x} \mathrm{d} \boldsymbol{y}\end{aligned} \]
\(I[\boldsymbol{x}, \boldsymbol{y}] \geq 0\),當且僅當\(x\)\(y\)獨立時等號成立。我們可以把互資訊看成由於知道\(y\)值而造成的\(x\)的不確定性的減少。

7. 一些小的知識點:

  1. 嚴格凸函式:每條弦位於函式影象上方,即二階導數為正
  2. 變分法
  3. 高維空間中,球的大部分體積都聚集在表面附近。
  4. 具體化一個連續變數需要大量位元位。

本文由飛劍客原創,如需轉載,請聯絡私信聯絡知乎:@AndyChanCD