1. 程式人生 > >周志華《Machine Learning》學習筆記(14)--計算學習理論

周志華《Machine Learning》學習筆記(14)--計算學習理論

上篇主要介紹了常用的特徵選擇方法及稀疏學習。首先從相關/無關特徵出發引出了特徵選擇的基本概念,接著分別介紹了子集搜尋與評價、過濾式、包裹式以及嵌入式四種類型的特徵選擇方法。子集搜尋與評價使用的是一種優中生優的貪婪演算法,即每次從候選特徵子集中選出最優子集;過濾式方法計算一個相關統計量來評判特徵的重要程度;包裹式方法將學習器作為特徵選擇的評價準則;嵌入式方法則是通過L1正則項將特徵選擇融入到學習器引數優化的過程中。最後介紹了稀疏表示與壓縮感知的核心思想:稀疏表示利用稀疏矩陣的優良性質,試圖通過某種方法找到原始稠密矩陣的合適稀疏表示;壓縮感知則試圖利用可稀疏表示的欠取樣資訊來恢復全部資訊。本篇將討論一種為機器學習提供理論保證的學習方法–計算學習理論。

13、計算學習理論

計算學習理論(computational learning theory)是通過“計算”來研究機器學習的理論,簡而言之,其目的是分析學習任務的本質,例如:在什麼條件下可進行有效的學習,需要多少訓練樣本能獲得較好的精度等,從而為機器學習演算法提供理論保證

首先我們迴歸初心,再來談談經驗誤差和泛化誤差。假設給定訓練集D,其中所有的訓練樣本都服從一個未知的分佈T,且它們都是在總體分佈T中獨立取樣得到,即獨立同分布(independent and identically distributed,i.i.d.),在《貝葉斯分類器》中我們已經提到:獨立同分布是很多統計學習演算法的基礎假設,例如最大似然法,貝葉斯分類器,高斯混合聚類等,簡單來理解獨立同分布:每個樣本都是從總體分佈中獨立取樣得到,而沒有拖泥帶水。例如現在要進行問卷調查,要從總體人群中隨機取樣,看到一個美女你高興地走過去,結果她男票突然冒了出來,說道:you jump,i jump,於是你本來只想調查一個人結果被強行撒了一把狗糧得到兩份問卷,這樣這兩份問卷就不能稱為獨立同分布了,因為它們的出現具有強相關性。

迴歸正題,泛化誤差指的是學習器在總體上的預測誤差,經驗誤差則是學習器在某個特定資料集D上的預測誤差。在實際問題中,往往我們並不能得到總體且資料集D是通過獨立同分布取樣得到的,因此我們常常使用經驗誤差作為泛化誤差的近似。

這裡寫圖片描述

13.1 PAC學習

在高中課本中,我們將函式定義為:從自變數到因變數的一種對映;對於機器學習演算法,學習器也正是為了尋找合適的對映規則,即如何從條件屬性得到目標屬性。從樣本空間到標記空間存在著很多的對映,我們將每個對映稱之為概念(concept),定義:

若概念c對任何樣本x滿足c(x)=y,則稱c為目標概念,即最理想的對映,所有的目標概念構成的集合稱為“概念類”


給定學習演算法,它所有可能對映/概念的集合稱為“假設空間”,其中單個的概念稱為“假設”(hypothesis);
若一個演算法的假設空間包含目標概念,則稱該資料集對該演算法是可分(separable)的,亦稱一致(consistent)的;
若一個演算法的假設空間不包含目標概念,則稱該資料集對該演算法是不可分(non-separable)的,或稱不一致(non-consistent)的。

舉個簡單的例子:對於非線性分佈的資料集,若使用一個線性分類器,則該線性分類器對應的假設空間就是空間中所有可能的超平面,顯然假設空間不包含該資料集的目標概念,所以稱資料集對該學習器是不可分的。給定一個數據集D,我們希望模型學得的假設h儘可能地與目標概念一致,這便是概率近似正確 (Probably Approximately Correct,簡稱PAC)的來源,即以較大的概率學得模型滿足誤差的預設上限。
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述

上述關於PAC的幾個定義層層相扣:定義12.1表達的是對於某種學習演算法,如果能以一個置信度學得假設滿足泛化誤差的預設上限,則稱該演算法能PAC辨識概念類,即該演算法的輸出假設已經十分地逼近目標概念。定義12.2則將樣本數量考慮進來,當樣本超過一定數量時,學習演算法總是能PAC辨識概念類,則稱概念類為PAC可學習的。定義12.3將學習器執行時間也考慮進來,若執行時間為多項式時間,則稱PAC學習演算法。

顯然,PAC學習中的一個關鍵因素就是假設空間的複雜度,對於某個學習演算法,若假設空間越大,則其中包含目標概念的可能性也越大,但同時找到某個具體概念的難度也越大,一般假設空間分為有限假設空間與無限假設空間。

13.2 有限假設空間

13.2.1 可分情形

可分或一致的情形指的是:目標概念包含在演算法的假設空間中。對於目標概念,在訓練集D中的經驗誤差一定為0,因此首先我們可以想到的是:不斷地剔除那些出現預測錯誤的假設,直到找到經驗誤差為0的假設即為目標概念。但由於樣本集有限,可能會出現多個假設在D上的經驗誤差都為0,因此問題轉化為:需要多大規模的資料集D才能讓學習演算法以置信度的概率從這些經驗誤差都為0的假設中找到目標概念的有效近似

這裡寫圖片描述

通過上式可以得知:對於可分情形的有限假設空間,目標概念都是PAC可學習的,即當樣本數量滿足上述條件之後,在與訓練集一致的假設中總是可以在1-σ概率下找到目標概念的有效近似。

13.2.2 不可分情形

不可分或不一致的情形指的是:目標概念不存在於假設空間中,這時我們就不能像可分情形時那樣從假設空間中尋找目標概念的近似。但當假設空間給定時,必然存一個假設的泛化誤差最小,若能找出此假設的有效近似也不失為一個好的目標,這便是不可知學習(agnostic learning)的來源。

這裡寫圖片描述

這時候便要用到Hoeffding不等式

這裡寫圖片描述

對於假設空間中的所有假設,出現泛化誤差與經驗誤差之差大於e的概率和為:

這裡寫圖片描述

因此,可令不等式的右邊小於(等於)σ,便可以求出滿足泛化誤差與經驗誤差相差小於e所需的最少樣本數,同時也可以求出泛化誤差界。

這裡寫圖片描述

13.3 VC維

現實中的學習任務通常都是無限假設空間,例如d維實數域空間中所有的超平面等,因此要對此種情形進行可學習研究,需要度量假設空間的複雜度。這便是VC維(Vapnik-Chervonenkis dimension)的來源。在介紹VC維之前,需要引入兩個概念:

增長函式:對於給定資料集D,假設空間中的每個假設都能對資料集的樣本賦予標記,因此一個假設對應著一種打標結果,不同假設對D的打標結果可能是相同的,也可能是不同的。隨著樣本數量m的增大,假設空間對樣本集D的打標結果也會增多,增長函式則表示假設空間對m個樣本的資料集D打標的最大可能結果數,因此增長函式描述了假設空間的表示能力與複雜度。
這裡寫圖片描述

打散:例如對二分類問題來說,m個樣本最多有2^m個可能結果,每種可能結果稱為一種“對分”,若假設空間能實現資料集D的所有對分,則稱資料集能被該假設空間打散。

因此儘管假設空間是無限的,但它對特定資料集打標的不同結果數是有限的,假設空間的VC維正是它能打散的最大資料集大小。通常這樣來計算假設空間的VC維:若存在大小為d的資料集能被假設空間打散,但不存在任何大小為d+1的資料集能被假設空間打散,則其VC維為d。

這裡寫圖片描述

同時書中給出了假設空間VC維與增長函式的兩個關係:

這裡寫圖片描述

直觀來理解(1)式也十分容易: 首先假設空間的VC維是d,說明當m<=d時,增長函式與2^m相等,例如:當m=d時,右邊的組合數求和剛好等於2^d;而當m=d+1時,右邊等於2^(d+1)-1,十分符合VC維的定義,同時也可以使用數學歸納法證明;(2)式則是由(1)式直接推導得出。

在有限假設空間中,根據Hoeffding不等式便可以推導得出學習演算法的泛化誤差界;但在無限假設空間中,由於假設空間的大小無法計算,只能通過增長函式來描述其複雜度,因此無限假設空間中的泛化誤差界需要引入增長函式。
這裡寫圖片描述
這裡寫圖片描述

上式給出了基於VC維的泛化誤差界,同時也可以計算出滿足條件需要的樣本數(樣本複雜度)。若學習演算法滿足經驗風險最小化原則(ERM),即學習演算法的輸出假設h在資料集D上的經驗誤差最小,可證明:任何VC維有限的假設空間都是(不可知)PAC可學習的,換而言之:若假設空間的最小泛化誤差為0即目標概念包含在假設空間中,則是PAC可學習,若最小泛化誤差不為0,則稱為不可知PAC可學習。

13.4 穩定性

穩定性考察的是當演算法的輸入發生變化時,輸出是否會隨之發生較大的變化,輸入的資料集D有以下兩種變化:

這裡寫圖片描述

若對資料集中的任何樣本z,滿足:

這裡寫圖片描述

即原學習器和剔除一個樣本後生成的學習器對z的損失之差保持β穩定,稱學習器關於損失函式滿足β-均勻穩定性。同時若損失函式有上界,即原學習器對任何樣本的損失函式不超過M,則有如下定理:

這裡寫圖片描述

事實上,若學習演算法符合經驗風險最小化原則(ERM)且滿足β-均勻穩定性,則假設空間是可學習的。穩定性通過損失函式與假設空間的可學習聯絡在了一起,區別在於:假設空間關注的是經驗誤差與泛化誤差,需要考慮到所有可能的假設;而穩定性只關注當前的輸出假設。

在此,計算學習理論就介紹完畢,一看這個名字就知道這一章比較偏底層理論了,最終還是咬著牙看完了它,這裡引用一段小文字來梳理一下現在的心情:“孤豈欲卿治經為博士邪?但當涉獵,見往事耳”,就當擴充知識體系吧~