機器學習--統計學習方法概論
參考《統計學習方法》一書,學習一下統計學習的相關知識。
1.統計學習
學習:一個系統能夠執行某個過程改進他的效能
統計學習:運用資料以及統計方法提高系統性能的機器學習
統計學習的物件是資料,並且假設同類資料具有一定的統計規律性,可以用隨機變數描述特徵,用概率分佈描述資料分佈規律
統計學習方法 基於資料構建統計模型從而對資料進行預測以及分析 監督學習 半監督學習 非監督學習 強化學習
過程如下:
1. 給定的有限的用於學習的訓練資料,資料獨立同分布產生
2. 假設要學習的模型屬於某個函式集合,假設空間
3.應用評價準則,從假設空間選擇一個最優的模型,使它對於訓練資料以及測試資料在給定評價準則下有最優預測
4.模型的選取由演算法實現
2.監督學習
輸入空間:輸入取值集合
特徵空間:每個具體輸入為一個例項,由特徵向量表示,特徵向量存在的空間為特徵空間
輸出空間:輸出取值集合
聯合概率分佈:監督學習假設輸入和輸出隨機變數X,Y遵循聯合概率分佈P(X,Y) ,訓練資料以及測試資料由聯合分佈獨立同分布產生的
假設空間:輸入到輸出空間對映的集合,假設空間 表示方法 條件分佈概率P(Y|X) 或者 決策函式Y=f(X)
3.統計學習三要素
1.模型:條件分佈概率以及決策函式
假設空間:所有可能的條件分佈概率以及決策函式集合,一般由一個引數向量決定:
非概率模型:
概率模型:
2.策略:評價準則
損失函式:度量預測錯誤的程度
0-1損失函式:
平方損失函式:
絕對損失函式:
對數損失函式:
指數損失函式:
期望風險: 風險函式 期望損失模型關於聯合分佈P(X,Y)的平均意義損失
學習目的使得期望風險最小,由於P(x,y)未知,上式無法求解。
經驗風險: 模型關於訓練集的平均損失
訓練集:
經驗風險:
期望風險是模型關於聯合分佈的期望損失,經驗風險是模型關於訓練集的平均損失,由大數定律:
當樣本容量N趨於無窮時,經驗風險趨於期望風險
由於實際中樣本數理有限,因此並不能直接用經驗風險來代替期望風險。
經驗風險最小化ERM:
當樣本容量足夠大時,學習效果很好。當模型為條件分佈,損失函式為對數函式,經驗風險最小化就是極大似然估計:
證明如下: