《統計學習方法》筆記一統計學習方法概論

阿新 • • 發佈：2018-10-11

類模型小時 term jsb lamda 計算方法直接估計預測

統計學習

統計學習時關於計算機基於數據構建概率統計模型 並運用模型對數據進行預測與分析。

統計學習的三要素：

方法 = 模型+策略+算法

統計學習由監督學習、非監督學習、半監督學習和強化學習等組成。

實現統計學習方法的具體步驟如下：

（1）得到一個有限的訓練數據集合；

（2）確定包含所有可能的模型的假設空間，即學習模型的集合；

（3）確定模型選擇的準則，即學習的策略；

（4）實現求解最優模型的算法，即學習的算法；

（5）通過學習方法選擇最優模型；

（6）利用學習的最優模型對數據進行預測或分析。

監督學習

一些基本概念：

輸入空間、特征空間、輸出空間

　　輸入與輸出所有可能取值的集合成為輸入空間

與輸出空間。每個具體的輸入是一個實例，通常由特征向量表示，所有特征向量存在的空間成為特征空間。

　　特征空間每一維對應一個特征，有時對輸入空間與特征空間不加以區分，有時假設輸入空間與特征空間為不同的空間，將實例從輸入空間映射到特征空間。模型實際上都是定義在特征空間上的。

根據輸入、輸出變量的不同類型，對預測任務給予不同的名稱：

　　回歸問題：輸入、輸出變量均為連續變量的預測問題；

　　分類問題：輸出變量為有限個離散變量的預測問題；

　　標註問題：輸入、輸出變量均為變量序列的預測問題

監督學習的任務就是學習一個模型，應用這一模型，對給定的輸入預測相應的輸出，這個模型的一般形式為決策函數：Y=f(X)或者條件概率分布P(Y|X)

統計學習三要素

模型

模型就是要學習的條件概率分布或決策函數。模型的假設空間包含所有可能的條件概率分布或決策函數。

空間用F表示，假設空間可以定義為決策函數的集合，即：

技術分享圖片

F通常是由一個參數向量來決定的條件概率分布族

技術分享圖片

假設空間也可以定義為條件概率的集合

此時有

策略

經驗風險最小化
結構風險最小化（正則化）

有了假設空間，考慮如何在假設空間中選取最優模型，因此引入損失函數和風險函數等來度量模型的好壞。

損失函數度量模型一次預測的好壞，風險函數度量平均意義下模型預測的好壞。

損失函數是f(X)和Y的非負實值函數，記做 L(Y,f(X))

常用的損失函數：

技術分享圖片

這是理論上模型f(X)關於聯合分布P(X,Y)的平均意義下的損失，稱為風險函數或期望損失。

經驗風險或經驗損失：
技術分享圖片

選擇令期望損失值最小的模型即為學習的目標，但是聯合分布未知因此Rexp不能直接計算，但如知道了聯合分布，可直接計算條件概率分布P(Y|X)，也就不需要學習。因此監督學習成為一個病態問題。

根據大數定律，當樣板容量趨於無窮，經驗風險趨於期望風險，但實際中訓練樣本數量有限，因此用經驗風險估計期望風險不理想，需進行矯正，則涉及監督學習的兩個基本策略：經驗風險最小化和結構風險最小化。

經驗風險最小化（empirical risk minimization，ERM）

ERM認為，經驗風險最小的模型最優，則最優模型可轉換為：
技術分享圖片

當模型是條件概率分布，損失函數是對數損失函數時，經驗風險最小化就等價於極大似然估計。

F為假設空間，當樣本容量足夠大，學習效果較好，但樣本容量很小時，容易過擬合，則引申出結構風險最小化。

結構風險最小化（structural risk minimization,SRM）/正則化

在ERM基礎上加上表示模型復雜度的正則化項或罰項，定義如下

技術分享圖片

其中J(f)為模型的復雜度，是定義在假設空間F上的泛函，模型f越復雜，J(f)越大。lamda是系數，≥0，用以權衡ERM和模型復雜度。

則SRM最小化將求最優模型轉換為求解最優問題：

技術分享圖片

當模型是條件概率分布、損失函數是對數損失函數、模型復雜度由模型的先驗概率表示時，結構風險最小化就等價於最大後驗概率估計。

算法

指學習模型的具體計算方法

模型評估與模型選擇

訓練誤差與測試誤差

技術分享圖片

正則化與交叉驗證

正則化一般形式如下：
技術分享圖片

第一項為經驗風險，第二項為正則化項目，正則化項可取不同的形式。經驗風險較小的模型可能較復雜（有多個非零參數），則第二項模型復雜度會較大，正則化的作用是選擇經驗風險與模型復雜度同時小的模型。

從貝葉斯估計角度看，正則化項對應模型的先驗概率，可假設復雜的模型有較大的先驗概率，簡單的模型有較小的先驗概率。

若樣本充足，可隨機將數據集分為訓練集、驗證集和測試集，驗證集用於模型選擇，在學習到的不同復雜度的模型中，選擇對驗證集有最小預測誤差的模型。但實際中數據不夠，因此采用交叉驗證，即重復利用數據，將給定數據劃分為訓練集與測試集，反復訓練、測試及模型選擇。

簡單交叉驗證

　　隨機將數據分為訓練集和測試集，用訓練集在各條件下訓練模型，在測試集上評價各個模型的測試誤差，選出測試誤差最小的模型

S折交叉驗證

　　隨機將數據切分為S個互不相交的大小相同的子集，利用S-1個子集的數據訓練模型，利用余下的子集測試模型，重復進行算出S次評測中平均測試誤差最小的模型

留一交叉驗證

　　當S=N時，N為給定數據集的容量

泛化能力

指由該方法學習到的模型對未知數據的預測能力。泛化誤差相當於所學習到的模型的期望風險。

泛化誤差上界（泛化誤差概率上界）

它是樣本容量的函數，樣本容量增加，泛化上界趨於0；是假設空間容量的函數，假設空間容量越大，模型越難學，泛化誤差上界越大。

技術分享圖片

R(f)為期望風險，R^為經驗風險。

生成模型與判別模型

技術分享圖片

分類問題

技術分享圖片

標註問題

標註問題可認為是分類問題的推廣，輸入是一個觀測序列，輸出是一個標記序列或狀態序列。評價標註模型的指標與評價分類模型的指標一樣，常用的有標註準確率、精確率和召回率。標註常用的統計學習方法有：隱馬爾可夫模型、條件隨機場。

回歸問題

回歸用於預測輸入變量和輸出變量之間的關系，回歸模型表示從輸入變量到輸出變量之間映射的函數，回歸問題的學習等價於函數擬合。回歸問題按照輸入變量的個數，分為一元回歸和多元回歸，按照輸入變量和輸出變量之間關系的類型即類型的模型，分為線性回歸和非線性回歸。回歸常用的損失函數是平方損失函數，例最小二乘法。

《統計學習方法》筆記一統計學習方法概論

類模型小時 term jsb lamda 計算方法直接估計預測統計學習統計學習時關於計算機基於數據構建概率統計模型並運用模型對數據進行預測與分析。統計學習的三要素：方法 = 模型+策略+算法統計學習由監督學習、非監督學習、半監督學習和強化學習等

《統計學習方法》筆記一統計學習方法概論

統計學習

監督學習

統計學習三要素

模型

策略

算法

模型評估與模型選擇

訓練誤差與測試誤差

正則化與交叉驗證

泛化能力

生成模型與判別模型

分類問題

標註問題

回歸問題

《統計學習方法》筆記一統計學習方法概論

Java多執行緒學習筆記(一) synchronized同步方法

小白最優化學習（四）演算法學習不精確一維搜尋方法

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

python學習小筆記一

機器學習實戰筆記一：K-近鄰演算法在約會網站上的應用

機器學習入門筆記一

深度學習入門教程UFLDL學習實驗筆記一：稀疏自編碼器

springMVC學習（筆記一）

機器學習課程筆記一

吳恩達-深度學習-課程筆記-6: 深度學習的實用層面( Week 1 )

《機器學習》筆記--4 整合學習boosting and bagging

軟體測試學習教程（一）-學習路線圖

臺大林軒田機器學習課程筆記3----機器學習的可行性

臺大林軒田機器學習課程筆記2----機器學習的分類

機器學習c12筆記：SVM學習與SVM,邏輯迴歸和kNN比較

機器學習基本概念一: 機器學習三要素

李巨集毅機器學習課程筆記-1.機器學習概論

李航—統計學習方法筆記（一）

統計學習方法筆記（一）：K近鄰法的實現：kd樹

《統計學習方法》筆記一 統計學習方法概論

統計學習

監督學習

統計學習三要素

模型

策略

算法

模型評估與模型選擇

訓練誤差與測試誤差

正則化與交叉驗證

泛化能力

生成模型與判別模型

分類問題

標註問題

回歸問題

相關推薦

《統計學習方法》筆記一統計學習方法概論