證明二類分類問題的泛化誤差上界

阿新 • • 發佈：2018-12-10

泛化誤差上界：

對二分類問題，當假設空間是有限個函式的集合F={f1,f2,f3,...,fn}時，對任意一個函式 $f\epsilon F$ ，至少以概率 $1-\delta$ ，以下不等式成立：

$R(f)\leq \hat{R}(f)+\varepsilon (d,N,\delta)$

其中， $\varepsilon (d,N,\delta )=\sqrt{1/2N(logd+log(1/\delta ))}$

不等式右端第一項為訓練誤差，訓練誤差越小，泛化誤差就越小

第二項為N的單調遞減函式，當N趨於無窮時其趨於0，且假設空間包含的函式越多，其值越大

以下為證明過程：

首先，因為證明過程要用到Hoeffding不等式，敘述如下：

設 $S_{n}=\sum_{i=1}^{n}X_{i}$ 是獨立隨機變數X1,X2,...,Xn之和， $X_{i}\epsilon [ai,bi]$ ，則對任意t>0，以下不等式成立：

$P(S_{n}-ES_{n}\geq t)\leq exp(\frac{-2t^{2}}{\sum_{i=1}^{n}(bi-ai)^{2} })$

$P(ES_{n}-S_{n}\geq t)\leq exp(\frac{-2t^{2}}{\sum_{i=1}^{n}(bi-ai)^{2} })$

現有，對任意 $f\epsilon F$ ， $\hat{R}(f)$ 是N個獨立隨機變數L(Y,f(X))的樣本均值， $R(f)$ 是隨機變數L(Y,f(X))的期望值，損失函式取值於區間[0,1],即對所有i，[ai,bi]=[0,1]則有：

$S_{n}=\sum_{i=1}^{N}L(Y_{i},f(X_{i}))=NR(f)$

$E(S_{n})=E(\sum_{i=1}^{N}L(Y_{i},f(X_{i})))=\sum_{i=1}^{N}(E(L(Y_{i},f(X_{i})))=\sum_{i=1}^{N}\hat{R}(f)=N\hat{R}(f)$

因為 $P(NR(f)-N\hat{R}(f)\geq N\varepsilon )=P(R(f)-\hat{R}(f)\geq \varepsilon )$

因此，由Hoeffding不等式得：

$P(R(f)-\hat{R}(f)\geq \varepsilon ) \leq exp(-2(N\varepsilon )^{2}/N)=exp(-2N\varepsilon ^{2})$

因為，假設空間是一個有限集合，則有：

$P(R(f)-\hat{R}(f)\geq \varepsilon )\leq dexp(-2N \varepsilon ^{2})$

等價於：

$P(R(f)-\hat{R}(f)\leq \varepsilon )\geq 1-dexp(-2N \varepsilon ^{2})$

令 $dexp(-2N \varepsilon ^{2})= \delta$ ，則至少以概率 $1-\delta$ 有 $R(f)< \hat{R}(f)+ \varepsilon$ 成立

因此，訓練誤差小的模型，泛化誤差也會小

證明二類分類問題的泛化誤差上界

泛化誤差上界：對二分類問題，當假設空間是有限個函式的集合F={f1,f2,f3,...,fn}時，對任意一個函式，至少以概率，以下不等式成立：其中，不等式右端第一項為訓練誤差，訓練誤差越小，泛化誤差就越小第二項為N的單調遞減函式，當N趨於無窮時其趨於0，且

（轉）Scala中協變(+)、逆變(-)、上界(<:)、下界(>:)簡單介紹

定義類 word ref 一個 pla 而不是關系 repl 協變看源碼的時候看到： trait ExtensionId[T <: Extension] {沒見過這個符號啊<: Scala上界(<:)和下界(>:) 1） U >: T

POJ-1062 昂貴的聘禮---Dijkstra+枚舉上界

全部 string href str 如果 tro typedef money 距離題目鏈接： https://vjudge.net/problem/POJ-1062 題目大意：中文題思路： 1是終點，可以額外添加一個源點0，0到任意一節點的距離就是這個點的money

一步步學spark之一scala高階特性中Lower bounds（下界）與Upper bounds（上界）,View bounds（檢視邊界）3.7

一步步學spark之一scala高階特性中Lower bounds（下界）與Upper bounds（上界），View bounds（檢視邊界） Upper bounds(上界):我們使用一個物件或者一個類必須是什麼型別的，也就是說必須是什麼型別或者什麼型別的子類。表示語法 <:

Java基礎Demo -- 泛型上界的示例

<T extends SuperClass> 泛型上界的定義 <? extends SuperClass> 有界萬用字元的運用普通泛型方法的運用靜態泛型方法的運用 class Grandpa { private int x,y; public Gran

python實現機器學習分類演算法原始碼————上篇

python實現機器學習分類演算法原始碼文章

Java泛型--上界萬用字元和下界萬用字元

轉自：Java泛型中extends和super的區別？另，問題來源：Java 泛型 <? super T> 中 super 怎麼理解？與 extends 有何不同？ <? extends T>和<? super T>是Java泛型中的

利用基於線性假設的線性分類器LogisticRegression/SGDClassifier進行二類分類(複習1)

本文是個人學習筆記，內容主要涉及LR(LogisticRegression)和SGD(SGDClassifier)對breast-cancer資料集進行線性二分類。線性分類器：假設資料特徵與分類目標

ML之分類預測之ElasticNet之PLoR：在二分類資料集上呼叫Glmnet庫訓練PLoR模型(T2)

ML之分類預測之ElasticNet之PLoR：在二分類資料集上呼叫Glmnet庫訓練PLoR模型(T2) 輸出結果設計思路核心程式碼 for iStep in range(

模型過擬合及模型泛化誤差評估

今天我們來深入探討過擬合的一些高階知識。對於分類模型，我們總希望它是有低的訓練誤差和低的泛化誤差。那麼過擬合的產生機理中有哪些有意思的東西？在建立一個分類模型的過程中我們暫時對檢驗資料集一無所知（也就是暫時得不到真正泛化誤差），那麼此時我們是如何估計泛化誤差的？我們的目錄：目錄

spark機器學習筆記：（四）用Spark Python構建分類模型（上）

因此,當 wTx的估計值大於等於閾值0時,SVM對資料點標記為1,否則標記為0(其中閾值是SVM可以自適應的模型引數)。 SVM的損失函式被稱為合頁損失,定義為:

泛化誤差，交叉驗證和特徵選擇

其中不等式右邊的R(f)是經驗風險，N為樣本數量，d為假設空間內的分類器個數。具體請參考《統計學習方法》。當假設空間推廣到無限的時候，參考Andrew的說法，我的理解是：假設學習演算法的評分為y(越高越好)，經驗風險為b，假設空間的VC維是x，樣本數量為a，那麼不嚴格地說，它們之間服從y=x/a+b這個線性的

Bi-peak Number (數位dp+有上界也有下屆）

A peak number is defined as continuous digits {D0, D1 … Dn-1} (D0 > 0 and n >= 3), which exist Dm (0 < m < n - 1) satisfied

Scala泛型、隱式轉換和隱式引數、檢視介紹、Scala中的上界、下界、結合柯里化進行隱式轉換

二、泛型一、Scala泛型 1. 泛型介紹泛型用於指定方法或類可以接受任意型別引數，引數在實際使用時才被確定，泛型可以有效地增強程式的適用性，使用泛型可以使得類或方法具有更強的通用性。泛型的典型應用場景是集合及集合中的方法引數，可以說同java一樣，s

7.scala初識柯里化、隱式引數、隱式轉換、檢視邊界、上界、下界、協變、逆變

1.前言：學過java我們都知道，java中的繼承是對類的增強，java中的代理、裝飾是對物件方法的增強。而在scala中，隱式轉換和隱式引數是Scala中兩個非常強大的功能，隱式的對類的方法進行增

泛化誤差、bars、variance

泛化誤差 = 偏差的平方 + 方差 + 噪聲偏差度量了真實資料與預測資料的偏離程度，刻畫了學習演算法本身的擬合能力方差度量了同樣大小的訓練集的變動所導致的學習效能的變化，刻畫了資料擾動所帶來的影響；噪聲表達了當前任務下任何學習演算法所能達到的期望泛化下界，

CF - 1108 E 枚舉上界+線段樹維護

分享 com gif test .so pushd fine int define 題目傳送門枚舉每個點作為最大值的那個點。然後既然是作為最大值出現的話，那麽這個點就是不需要被減去的，因為如果最小值也在這個區間內的話，2者都減去1，對答案沒有影響，如果是最小值不出現在這個

scala協變逆變上界下界---理解篇

Scala的協變和逆變上界與下界 1. 引子：為了弄懂scala中協變和逆變這兩個概念，查閱了不少資料，但是還是要自己總結一下，會記得比較深刻。那就從java和scala的對比說起吧。 java中：如果你很理解java的泛型，就會知道：比如給定一個類B，和他的父類A。

Scala學習（九）Scala的泛型、上界、下屆

一、泛型（1）泛型的介紹泛型用於指定方法或類可以接受任意型別引數，引數在實際使用時才被確定，泛型可以有效地增強程式的適用性，使用泛型可以使得類或方法具有更強的通用性。泛型的典型應用場景是集合及集合中的方法引數，可以說同java一樣，scala中泛型無處不在，具體可以檢視sca

基於樸素貝葉斯分類器的文字分類演算法（上）

轉載請保留作者資訊：作者：phinecos（洞庭散人） Preface 本文緣起於最近在讀的一本書-- Tom M.Mitchell的書中第6章詳細講解了貝葉斯學習的理論知識，為了將其應用到實際中來，參考了網上許多資料，從而得此文。文章將分為兩個部分，第一部分將介紹貝葉斯學習的相關理論()。第二部

證明二類分類問題的泛化誤差上界

相關推薦