1. 程式人生 > >《PRML》第一章 讀書筆記.2

《PRML》第一章 讀書筆記.2

模式選擇

回顧前面的多項式擬合,多項式的階數決定了模型的複雜度。另外,正則係數λ 的大小限制了模型的複雜度。那麼什麼樣的模型是最好的模型呢?等價於確定每一個超引數的值。

1. 交叉驗證

將資料按比例分為S(下圖中S=4)份,每次訓練使用其中的一份作為驗證集,其餘作為訓練集。對每一個模型Mi進行4次訓練,得到S個錯誤率, 對S各錯誤率求平均值即得到模型的綜合錯誤率ηi

對可變引數的n個模型,執行上述訓練,選n個模型中錯誤率最小的模型作為最終模型。

2.資訊量的判別

增加引數可使得似然概率增大,但是卻引入了額外的變數。引入額外變數是的模型過於複雜。AIC和BIC都在目標式中添加了模型引數個數的懲罰項。

AIC:Akaike information criterion

lnp(D|WML)M

在損失函式中加上引數個數的懲罰項。其中前半部分表示擬合最佳時的對數似然,M表示可訓練引數數量。

維度詛咒

低維不可分的問題,對映到高維以後就可以區分!!!

例子:如何給圖中x分類(紅綠藍)。(原始資料為十維,圖中畫出其中兩維)

簡單的方法是將資料分塊,資料點落在的塊中哪一個類別的資料最多,分為哪一類。(類似Knn:找到目標距離最近的k個樣本,取k個樣本中類別最多的)

隨著維度的增加,分塊的數量呈指數被增加!!但事情況是,無法找到如此多的訓練資料填到每一個分塊中。

球體積計算

二維:V=πr2

三維:V=43πr3

D維:V=KrD

D維下球殼體積所佔整個球體積的比例:

V(r)V(rϵ)V(r)=1(1ϵr)D
取r=1,對上式作圖:

從圖中可以看出:隨著維度增加,球的體積逐漸聚集到球殼上。

所以,原本區分並不明顯的樣本,由於維度的增加,其在特定維度上的特徵也變得更加清晰。

另一個問題:高維度下的等間距劃分變得十分不嚴格。

Decision Theory

  1. 最小化誤分率

  2. 使用帶權重的損失函式(最小化期望損失)

    考慮癌症診斷中的兩個問題的代價:
    ①把患者診斷為健康
    ②把健康人診斷為幻癌症

  3. 設定拒絕條件: 兩條線的和為1,當未超過閾值θ時,始終拒絕。

Information Theory (資訊理論)

資訊量(多少)的定義:可看做對x值的“驚喜程度”。確定的事:0;比較確定的事:較少的資訊量;很不確定的事:較多的資訊量。

熵(Entropy):有兩個獨立變數x、y,觀察到兩個變數獲得的資訊為h(x)、h(y),則整體資訊應為兩個變數獲得資訊的和h(x,y)=h(x)+h(y)。另外,對於獨立變數,聯合概率p(x,y)=p(x)p(y)。根據這兩個條件,h的形式應為:

h(x)=log2p(x)H[x]=xp(x)log2p(x)

熵的應用:最大熵原理。
假設有100塊錢放在下面兩個盒子中,那麼在黃色盒子中的概率是多少?
在其中一個盒子的概率與整體熵的關係:

按照常識,在沒有任何資訊的前提下,我們一定會猜測在兩個盒子中的概率都為0.5。當概率相等時,熵正好達到最大。

其他應用:詞性標註、短語識別、指代消解、語法分析、機器翻譯、文字分類、問題回答、語言模型。

條件熵與互資訊:

如果兩個變數相互獨立,則其聯合概率等於其邊緣概率的乘積;否則,可通過其聯合概率與邊緣概率乘積來判斷他它們的分佈是否接近。