統計學習方法(1) 理論基礎

基本概念：

1、基本假設：

統計學習假定資料存在一定的統計規律，監督學習關於資料的基本假設就是假設X和Y具有聯合概率分佈P(X, Y)。

2、假設空間（模型）：

監督學習的模型可以是概率模型或非概率模型，由條件概率分佈P(Y|X)或決策函式Y=f(X)表示，隨具體學習方法而定。對具體的輸入進行相應的輸出預測時，寫作P(y|x)或y=f(x)。

3、策略：

在假設空間中選取模型f作為決策函式，對於給定的輸入X，由f(X)給出相應的輸出Y，這個輸出f(X)與真實值Y可能一致也可能不一致，用損失函式來度量預測錯誤的程度，如果能使這個損失函式足夠小，則可以保證模型具有較好的預測精度。損失函式是f(X)和Y的非負實數函式，記作L(Y, f(X))

。

損失函式：損失函式度量模型一次預測的好壞；
風險函式：風險函式度量平均意義下模型預測的好壞，即期望損失。

（1）損失函式

0-1損失函式(0-1 loss function) $L(Y,f(X))=\left\{ \begin{aligned}&1,\quad Y\ne f(X)\\& 0,\quad Y=f(X) \end{aligned} \right.$ 可以看出，該損失函式的意義就是，當預測錯誤時，損失函式值為1，預測正確時，損失函式值為0。該損失函式不考慮預測值和真實值的誤差程度，也就是隻要預測錯誤，預測錯誤差一點和差很多是一樣的。感知機就是用的這種損失函式。但是由於相等這個條件太過嚴格，因此我們可以放寬條件，即滿足 |Y−f(X)|<T 時認為相等。 $L$

(Y,f(X))={1,∣Y−f(X)∣≥T0,∣Y−f(X)∣<T L(Y,f(X))=\left\{ \begin{aligned}&1,\quad |Y-f(X)|\geq T\\& 0,\quad |Y-f(X)|< T \end{aligned} \right. $L (Y, f (X)) = {1, ∣ Y - f (X) ∣ \geq T 0, ∣ Y - f (X) ∣ < T$
平方損失函式(quadratic loss function) $L(Y,f(X))=(Y-f(X))^2$ 該損失函式的意義也比較簡單，就是取預測差距的平方。
絕對值損失函式(absolute loss function) $L(Y,f(X))=|Y-f(X)|$ 該損失函式的意義和上面差不多，只不過是取了絕對值，差距不會被平方放大。
對數損失函式(logarithmic loss function) $L(Y,P(Y|X))=-logP(Y|X)$ 這個損失函式就比較難理解了。事實上，該損失函式用到了極大似然估計的思想。P(Y|X)通俗的解釋就是：在當前模型的基礎上，對於樣本X，其預測值為Y，也就是預測正確的概率。由於概率之間的同時滿足需要使用乘法，為了將其轉化為加法，我們將其取對數。最後由於是損失函式，所以預測正確的概率越高，其損失值應該是越小，因此再加個負號取個反。

邏輯斯特迴歸的損失函式就是對數損失函式，對數損失函式與極大似然估計的對數似然函式本質上是等價的，所以邏輯迴歸直接採用對數損失函式來求引數，實際上與採用極大似然估計來求引數是一致的。

指數損失函式 $L(Y|f(X)) = exp[-yf(x)]$ AdaBoost就是以指數損失函式為損失函式的。
Hinge損失函式 Hinge損失函式和SVM是息息相關的。線上性支援向量機中，最優化問題可以等價於： $\min_{w,b}\sum_{i}^{N}(1 - y_{i}(wx_{i}+b))+\lambda ||w^{2}||$ 這個式子和如下的式子非常像： $\frac{1}{m}\sum_{i=1}^{m}l(wx_{i}+by_{i})+||w||^{2}$ 其中 $l(wx_i+by_i)$ 就是hinge損失函式，後面相當於L2正則項。 Hinge函式的標準形式： $L(y)=max(0,1-ty)$ y是預測值，在-1到+1之間，t為目標值（-1或+1）。其含義為，y的值在-1和+1之間就可以了，並不鼓勵|y|>1，即並不鼓勵分類器過度自信，讓某個正確分類的樣本的距離分割線超過1並不會有任何獎勵，從而使分類器可以更專注於整體的分類誤差。

（2）風險函式

全域性損失函式：

上面的損失函式僅僅是對於一個樣本來說的。而我們的優化目標函式應當是使全域性損失函式最小。因此，全域性損失函式往往是每個樣本的損失函式之和，也叫經驗風險函式。

模型的輸入、輸出(X, Y)是隨機變數，遵循聯合分佈P(X, Y)，所以損失函式的期望： $R_{exp}(f) = E_P[L(Y), f(X)] = \int L(y, f(x))P(x, y)dxdy$ 這是理論上f(X)關於聯合分佈P(X, Y)平均意義下的損失，成為風險函式或期望損失。

如果知道聯合分佈P(X, Y)，可以從聯合分佈直接求出條件概率分佈P(Y | X)，就不需要學習了(例如：樸素貝葉斯是不需要學習的). 正是因為不知道聯合概率分佈，所以才需要學習。

那麼，聯合概率分佈不確定的情況下如何構建模型呢？

一個很自然的想法就是利用現實中觀察到的訓練樣本來對模型進行近似，資料越多，模型卻接近全域性。

給定一個訓練資料集： $T = {(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)}$ 模型f(X)關於訓練集T的平均損失稱為經驗風險或經驗損失： $R_{emp}(f) = \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i))$ 根據大數定律，當樣本容量N趨於無窮，經驗風險趨於期望風險。但由於資料數目有限，需要對經驗風險進行一定的校正，從而涉及監督學習的兩個基本策略：

經驗風險最小化
結構風險最小化

經驗風險最小化和結構風險最小化：

當樣本容量足夠大時，經驗風險可以保證較好的學習效果：經驗風險最小化求最優模型就是求解最優化問題： $min \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i))$ 當模型是條件概率分佈、損失函式是對數損失函式時，經驗風險最小化就等價於極大似然估計。

當樣本容量很小時，則會產生“過擬合”，結構風險最小化是為了防止過擬合而提出的策略。機構風險最小化等價於正則化，結構風險在經驗風險上加上表示模型複雜度的正則化項或懲罰項。結構風險定義如下： $R_{srm}(f) = \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f)$ 其中J(f)為模型複雜度。當模型是條件概率分佈、損失函式是對數損失函式、模型複雜度由模型的先驗概率表示時，結構風險最小化就等價於最大後驗概率估計。結構風險最小化求最優模型就是求解最優化問題： $min \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f)$

因此，監督學習問題就變成了經驗風險或結構風險函式的最優化問題，這時經驗或結構風險函式是最優化的目標函式。

4、模型評估

當損失函式給定時，基於損失函式的模型的訓練誤差和模型的測試誤差就自然成為學習演算法的評估標準，但統計學習方法具體採用的損失函式未必是評估時使用的損失函式，讓兩者一致是比較理想的。對於給定的兩種學習方法，測試誤差小的方法具有更好的預測能力。

錯誤率和精度該評估方法與0-1損失函式對應。
查準率、查全率和F1 查準率：表示預測為正例的樣本中有多少比例真實為正例（檢索的資訊中有多少比例是使用者感興趣的）。 $P = {TP(真正例) \over TP(真正例) + FP(假正例)}$ 查全率：表示真實為正例的樣本有多少比例被預測為正例（使用者感興趣的資訊有多少比例被檢索出來）。 $P = {TP(真正例) \over TP(真正例) + FP(假反例)}$ 查準率和查全率是一對矛盾的度量，比如選擇好瓜：當查準率高時，只會選擇最有把握的瓜，從而漏掉不少好瓜，查全率較低；當查全率高時，可通過增加選瓜的數量來實現，如果所有的瓜都被選上，則所有好瓜都被選中，這樣查準率就比較低。
F1度量 $F1 = {2×P×R \over P + R} = {2×TP \over 樣例總數 + TP - TN}$ F1度量的一般形式： $F_\beta = {(1+\beta^2)×P×R \over (\beta^2 × P) + R}$ 寫成下面形式更容易理解： ${1\over F_\beta} = {1\over {(1+\beta^2)}}·({1\over P}+{\beta^2\over R})$

相關推薦

統計學習方法(1) 理論基礎

基本概念： 1、基本假設：統計學習假定資料存在一定的統計規律，監督學習關於資料的基本假設就是假設X和Y具有聯合概率分佈P(X, Y)。 2、假設空間（模型）：監督學習的模型可以是概率模型或非概率模型，由條件概率分佈P(Y|X)或決策函式Y=f(X)表示，隨

[筆記]統計學習方法-1概論

書：李航老師的《統計學習方法》。 1.1 統計學習統計學習(statistical learning)的方法：基於資料構建統計模型從而對資料進行預測與分析。統計學習包括：supervised learning, unsupervised learning, semi-supervised learn

統計學習方法 1-統計學習方法概論

統計學習統計學習的特點統計學習的主要特點是：（1）統計學習以計算機及網路為平臺，是建立在計算機及網路之上的；（2）統計學習以資料為研究物件，是資料驅動的學科；（3）統計學習的目的是對資料進行預測與分析；（4）統計學習以方法為中心，統計

機器學習----統計學習方法-1

一、統計學習方法概論統計學習方法是基於資料構建統計從而進行預測和分析，統計學習方法分為監督學習、非監督學習、半監督學習和強化學習。統計學習方法的三要素：假設空間、模型選擇的準則和模型學習的演算法。 1.1、基本概念 1.1.1、

第1章統計學習方法概論

通過統計執行算法標註概率分布過程改進非監督學習連續學習定義：如果一個系統能夠通過執行某個過程改進他的性能，這就是學習。統計學習的對象：數據目的：對數據進行預測和分析方法：監督學習、非監督學習、半監督學習、強化學習統計學習的三要素：方法 = 模

統計學習方法-第2章-感知機(1)

2.1 感知機模型定義: 輸入特徵空間為$\chi\subseteq R^n$, 輸出空間為$\mathcal{Y}=\{+1, -1\}$. 則由輸入空間到輸出空間的如下函式: \[f(x) = sign(w\cdot x+b)\] 其中\[sign(x)=\left\{\begin{array

統計學習方法筆記1

第一章統計學習方法概論 1.1統計學習統計學習特點：計算機網路平臺，資料驅動，構建模型，預測分析統計學習物件：data，具有一定統計規律的資料統計學習目的：預測分析統計學習方法：模型，策略，演算法；統計學習方法的步驟：

統計學習方法筆記7.1

第七章支援向量機支援向量機（support vector machines,SVM)是一種二類分類模型，基本模型是定義在特徵空間上的間隔最大的線性分類器。 7.1 線性可分支援向量機與硬間隔最大化 7.1.1 線性可分支援向量機支援向量機的學習都是在特徵空

《統計學習方法》“支援向量機”一章中說可以取函式間隔等於 1 是為什麼？

假設兩條平行直線分別是 (1)Wx+A=0, Wx+A=0,\tag{1} Wx+A=0,(1) 與 (2)Wx+B=0. Wx+B=0.\tag{2} Wx+B=0.(2) 那麼和這兩條直線平行，且位於中間的那條直線就可以表示成： (3)Wx+A+B−A2=0

第1章統計學習方法概論

1.什麼是統計學習 OR 統計機器學習 OR 機器學習？ =計算機基於資料構建概率統計模型，並運用模型對資料進行預測與分析（統計學習的目的）。統計學習就是計算機系統通過運用資料及統計方法提高系統性能的機器學習。 2.統計學習的物件：統計

第1章統計學習方法概論(LeastSquaresMethod)課後習題參考解答

上一篇：【第1章程式碼實現】====== 【回到目錄】====== 下一篇：【[第2章程式碼實現]】第一問主要參考：參考注：該文中的對

第1章統計學習方法概論(LeastSquaresMethod)程式碼實現

上一篇：【目錄】====== 【回到目錄】====== 下一篇：【第一章課後習題參考解答】 import numpy as np from scipy.optimize import leastsq import matplot

【統計學習方法讀書筆記】感知機的個人理解（1）

寫在前面：在友人的推薦下，開始入李航老師的坑，《統計學習方法》。讀到第二章，感知機，李航老師由淺入深讓我有了很好的理解，現在自己總結一下思路。正文：感知機用於二分類問題，由淺開始：假定我們有一個平面上存在許許多多的藍色點和紅色點，並且假設存在一條直線可以將藍紅

李航·統計學習方法筆記·第6章 logistic regression與最大熵模型（1）·邏輯斯蒂迴歸模型

第6章 logistic regression與最大熵模型（1）·邏輯斯蒂迴歸模型標籤（空格分隔）：機器學習教程·李航統計學習方法邏輯斯蒂：logistic 李航書中稱之為：邏輯斯蒂迴歸模型周志華書中稱之為：對數機率迴歸模

《統計學習方法》第1章課後題答案

1.1 說明伯努利模型的極大似然估計以及貝葉斯估計中的統計學習方法三要素。伯努利模型是定義在取值為0與1的隨機變數上的概率分佈。假設觀測到伯努利模型n次獨立的資料生成結果，其中k次的結果為1，這時可以用

第一章統計學習方法概論 —— 第1~3節統計學習及監督學習的簡介、損失函式及風險函式的公式化表達

關於統計學習方法的知識，參考書《統計學習方法》，李航著，清華大學出版社。所有章節的符號表示、公式表示都是統一化的。第一章統計學習方法概論第一節統計學習一、概念所謂統計學習，指的是基於已知資料構建統計模型，從而對未知資料進行預測。二、分類監督學習（super

從基礎出發：統計學習方法三要素

統計學習方法，初聽起來感覺很陌生，到底什麼是統計學習方法，怎麼去理解？李航老師版的《統計學習方法》給了詳細的解釋，以下是我的理解，如理解有偏差，還望指教。統計學習方法由三個要素構成，即模型

機器學習與資料科學基於R的統計學習方法（一)-第1章機器學習綜述

1.1 機器學習的分類監督學習：線性迴歸或邏輯迴歸，非監督學習：是K-均值聚類，即在資料點集中找出“聚類”。另一種常用技術叫做主成分分析（PCA），用於降維，演算法的評估方法也不盡相同。最常用的方法是將均方根誤差（RMSE）的值降到最小，這一數值用於評價測試集的預測結果是否準確。 R

李航統計學習方法習題5.1

定義5.3（資訊增益比）特徵A對訓練資料集D的資訊增益比定義為其資訊增益與訓練資料集D關於特徵A的值的熵之比，即

每月學習數理統計--《統計學習方法—李航》(1)

分類 bsp 小白總結統計學乘法入門回歸 ova 現在這本書已經看完70%，在看完後我將會將每一章的內容按照自己的理解並結合其他書籍包括<<統計機器學習導論>>[1] ，<<機器學習>>[2]，<&l