1. 程式人生 > >PAC學習框架

PAC學習框架

條件 c學習 html ppr -- .cn 預測 span 分布

PAC學習框架

轉自:http://www.cnblogs.com/alphablox/p/5935826.html

PAC學習框架是機器學習的基礎。它主要用來回答以下幾個問題:

  1. 什麽問題是可以高效學習的?
  2. 什麽問題本質上就難以學習?
  3. 需要多少實例才能完成學習?
  4. 是否存在一個通用的學習模型?

PAC=probably approximately correct,很可能接近正確的

---------------------

什麽問題能得到“可能接近正確”的結果呢?原文說的比較抽象,我把他翻譯下:

說一個問題是PAC可學習的,需要定義m個sample組成S空間,其中每個sample服從D分布,並且互相獨立;

如果存在一個算法A,在m(sample個數)有限的情況下,找到假設h;

使得對於任意兩個數x,y,概率P(h對S中sample預測錯誤次數大於x) < y;

xy對應技術分享 中兩個奇怪的符號!註意上面說的是小於,截圖中說的是相反事件的大於。其實是一回事。

那麽該問題是PAC可學習的。

----

舉個例子,在二維平面上去學習一個矩陣:

技術分享

目標是找到R,R內部的點是藍色的,外部的點是紅色的。

為了證明上面的問題是PAC可學習的,我們需要找到一個算法A,並且證明只需要m個實例,就可以是的概率等式成立。

首先確定算法:

技術分享

這個算法很簡單,就是所有藍色的點的最小矩形R。那麽這個R能不能滿足上面的概率等式呢?假設給定x和y。如果錯誤個數大於x的概率小於y,需要什麽條件呢?

不好回答,因此我們需要做一個轉換:

技術分享

我們先沿著R的4條邊,向內部擴展,畫出4個小矩形:r1,2,3,4。每個r的概率x/4。

如果R’的錯誤個數大於x,那麽R’必然與r1,2,3,4中的至少一個有交集。(否則錯誤個數必定小於x)

因此有不等式:

技術分享

由於並集的概率小於各自概率的和:

技術分享

由於S中的每個sample的獨立分布的,並且落在r1中的概率為x/4,所以

技術分享

由於我們要求錯誤個數大於x的概率小於y,所以可以定義如下的不等式。

技術分享

推導出m的下限。

這就說明只需要有限個實例就能滿足上面的概率不等式。

------------------------------------------------

這就說明了,上面這個平面圖形中學習矩形的問題是PAC可學習的。

PAC學習框架