《統計學習方法》筆記一 統計學習方法概論
統計學習
統計學習時關於計算機基於數據構建概率統計模型 並運用模型 對數據進行預測與分析。
統計學習的三要素:
方法 = 模型+策略+算法
統計學習由監督學習、非監督學習、半監督學習和強化學習等組成。
實現統計學習方法的具體步驟如下:
(1)得到一個有限的訓練數據集合;
(2)確定包含所有可能的模型的假設空間,即學習模型的集合;
(3)確定模型選擇的準則,即學習的策略;
(4)實現求解最優模型的算法,即學習的算法;
(5)通過學習方法選擇最優模型;
(6)利用學習的最優模型對數據進行預測或分析。
監督學習
一些基本概念:
- 輸入空間、特征空間、輸出空間
輸入與輸出所有可能取值的集合成為輸入空間
特征空間每一維對應一個特征,有時對輸入空間與特征空間不加以區分,有時假設輸入空間與特征空間為不同的空間,將實例從輸入空間映射到特征空間。模型實際上都是定義在特征空間上的。
根據輸入、輸出變量的不同類型,對預測任務給予不同的名稱:
回歸問題:輸入、輸出變量均為連續變量的預測問題;
分類問題:輸出變量為有限個離散變量的預測問題;
標註問題: 輸入、輸出變量均為變量序列的預測問題
監督學習的任務就是學習一個模型,應用這一模型,對給定的輸入預測相應的輸出,這個模型的一般形式為決策函數:Y=f(X)或者條件概率分布P(Y|X)
統計學習三要素
模型
模型就是要學習的條件概率分布或決策函數。模型的假設空間包含所有可能的條件概率分布或決策函數。
空間用F表示,假設空間可以定義為決策函數的集合,即:
F通常是由一個參數向量來決定的條件概率分布族
假設空間也可以定義為條件概率的集合
此時有
策略
- 經驗風險最小化
- 結構風險最小化(正則化)
有了假設空間,考慮如何在假設空間中選取最優模型,因此引入損失函數和風險函數等來度量模型的好壞。
損失函數度量模型一次預測的好壞,風險函數度量平均意義下模型預測的好壞。
損失函數是f(X)和Y的非負實值函數,記做 L(Y,f(X))
常用的損失函數:
這是理論上模型f(X)關於聯合分布P(X,Y)的平均意義下的損失,稱為風險函數或期望損失。
經驗風險或經驗損失:
選擇令期望損失值最小的模型即為學習的目標,但是聯合分布未知因此Rexp不能直接計算,但如知道了聯合分布,可直接計算條件概率分布P(Y|X),也就不需要學習。因此監督學習成為一個病態問題。
根據大數定律,當樣板容量趨於無窮,經驗風險趨於期望風險,但實際中訓練樣本數量有限,因此用經驗風險估計期望風險不理想,需進行矯正,則涉及監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。
經驗風險最小化(empirical risk minimization,ERM)
ERM認為,經驗風險最小的模型最優,則最優模型可轉換為:
當模型是條件概率分布,損失函數是對數損失函數時,經驗風險最小化就等價於極大似然估計。
F為假設空間,當樣本容量足夠大,學習效果較好,但樣本容量很小時,容易過擬合,則引申出結構風險最小化。
結構風險最小化(structural risk minimization,SRM)/正則化
在ERM基礎上加上表示模型復雜度的正則化項或罰項,定義如下
其中J(f)為模型的復雜度,是定義在假設空間F上的泛函,模型f越復雜,J(f)越大。lamda是系數,≥0,用以權衡ERM和模型復雜度。
則SRM最小化將求最優模型轉換為求解最優問題:
當模型是條件概率分布、損失函數是對數損失函數、模型復雜度由模型的先驗概率表示時,結構風險最小化就等價於最大後驗概率估計。
算法
指學習模型的具體計算方法
模型評估與模型選擇
訓練誤差與測試誤差
正則化與交叉驗證
正則化一般形式如下:
第一項為經驗風險,第二項為正則化項目,正則化項可取不同的形式。經驗風險較小的模型可能較復雜(有多個非零參數),則第二項模型復雜度會較大,正則化的作用是選擇經驗風險與模型復雜度同時小的模型。
從貝葉斯估計角度看,正則化項對應模型的先驗概率,可假設復雜的模型有較大的先驗概率,簡單的模型有較小的先驗概率。
若樣本充足,可隨機將數據集分為訓練集、驗證集和測試集,驗證集用於模型選擇,在學習到的不同復雜度的模型中,選擇對驗證集有最小預測誤差的模型。但實際中數據不夠,因此采用交叉驗證,即重復利用數據,將給定數據劃分為訓練集與測試集,反復訓練、測試及模型選擇。
- 簡單交叉驗證
隨機將數據分為訓練集和測試集,用訓練集在各條件下訓練模型,在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型
- S折交叉驗證
隨機將數據切分為S個互不相交的大小相同的子集,利用S-1個子集的數據訓練模型,利用余下的子集測試模型,重復進行算出S次評測中平均測試誤差最小的模型
- 留一交叉驗證
當S=N時,N為給定數據集的容量
泛化能力
指由該方法學習到的模型對未知數據的預測能力。泛化誤差相當於所學習到的模型的期望風險。
泛化誤差上界(泛化誤差概率上界)
它是樣本容量的函數,樣本容量增加,泛化上界趨於0;是假設空間容量的函數,假設空間容量越大,模型越難學,泛化誤差上界越大。
R(f)為期望風險,R^為經驗風險。
生成模型與判別模型
分類問題
標註問題
標註問題可認為是分類問題的推廣,輸入是一個觀測序列,輸出是一個標記序列或狀態序列。 評價標註模型的指標與評價分類模型的指標一樣,常用的有標註準確率、精確率和召回率。 標註常用的統計學習方法有:隱馬爾可夫模型、條件隨機場。回歸問題
回歸用於預測輸入變量和輸出變量之間的關系,回歸模型表示從輸入變量到輸出變量之間映射的函數,回歸問題的學習等價於函數擬合。 回歸問題按照輸入變量的個數,分為一元回歸和多元回歸,按照輸入變量和輸出變量之間關系的類型即類型的模型,分為線性回歸和非線性回歸。 回歸常用的損失函數是平方損失函數,例最小二乘法。《統計學習方法》筆記一 統計學習方法概論