PAC學習框架
PAC學習框架
轉自:http://www.cnblogs.com/alphablox/p/5935826.htmlPAC學習框架是機器學習的基礎。它主要用來回答以下幾個問題:
- 什麽問題是可以高效學習的?
- 什麽問題本質上就難以學習?
- 需要多少實例才能完成學習?
- 是否存在一個通用的學習模型?
PAC=probably approximately correct,很可能接近正確的
---------------------
什麽問題能得到“可能接近正確”的結果呢?原文說的比較抽象,我把他翻譯下:
說一個問題是PAC可學習的,需要定義m個sample組成S空間,其中每個sample服從D分布,並且互相獨立;
如果存在一個算法A,在m(sample個數)有限的情況下,找到假設h;
使得對於任意兩個數x,y,概率P(h對S中sample預測錯誤次數大於x) < y;
xy對應 中兩個奇怪的符號!註意上面說的是小於,截圖中說的是相反事件的大於。其實是一回事。
那麽該問題是PAC可學習的。
----
舉個例子,在二維平面上去學習一個矩陣:
目標是找到R,R內部的點是藍色的,外部的點是紅色的。
為了證明上面的問題是PAC可學習的,我們需要找到一個算法A,並且證明只需要m個實例,就可以是的概率等式成立。
首先確定算法:
這個算法很簡單,就是所有藍色的點的最小矩形R。那麽這個R能不能滿足上面的概率等式呢?假設給定x和y。如果錯誤個數大於x的概率小於y,需要什麽條件呢?
不好回答,因此我們需要做一個轉換:
我們先沿著R的4條邊,向內部擴展,畫出4個小矩形:r1,2,3,4。每個r的概率x/4。
如果R’的錯誤個數大於x,那麽R’必然與r1,2,3,4中的至少一個有交集。(否則錯誤個數必定小於x)
因此有不等式:
由於並集的概率小於各自概率的和:
由於S中的每個sample的獨立分布的,並且落在r1中的概率為x/4,所以
由於我們要求錯誤個數大於x的概率小於y,所以可以定義如下的不等式。
推導出m的下限。
這就說明只需要有限個實例就能滿足上面的概率不等式。
------------------------------------------------
這就說明了,上面這個平面圖形中學習矩形的問題是PAC可學習的。
PAC學習框架