1. 程式人生 > >機器學習--統計學習方法概論

機器學習--統計學習方法概論

參考《統計學習方法》一書,學習一下統計學習的相關知識。

1.統計學習

學習:一個系統能夠執行某個過程改進他的效能

統計學習:運用資料以及統計方法提高系統性能的機器學習

統計學習的物件是資料,並且假設同類資料具有一定的統計規律性,可以用隨機變數描述特徵,用概率分佈描述資料分佈規律

統計學習方法 基於資料構建統計模型從而對資料進行預測以及分析  監督學習  半監督學習  非監督學習  強化學習

過程如下:

1. 給定的有限的用於學習的訓練資料,資料獨立同分布產生

2. 假設要學習的模型屬於某個函式集合,假設空間

3.應用評價準則,從假設空間選擇一個最優的模型,使它對於訓練資料以及測試資料在給定評價準則下有最優預測

4.模型的選取由演算法實現

2.監督學習

輸入空間:輸入取值集合

特徵空間:每個具體輸入為一個例項,由特徵向量表示,特徵向量存在的空間為特徵空間

輸出空間:輸出取值集合

聯合概率分佈:監督學習假設輸入和輸出隨機變數X,Y遵循聯合概率分佈P(X,Y) ,訓練資料以及測試資料由聯合分佈獨立同分布產生的

假設空間:輸入到輸出空間對映的集合,假設空間  表示方法     條件分佈概率P(Y|X)   或者    決策函式Y=f(X)

3.統計學習三要素

1.模型:條件分佈概率以及決策函式

假設空間:所有可能的條件分佈概率以及決策函式集合,一般由一個引數向量決定:

非概率模型:

概率模型:

2.策略:評價準則

損失函式:度量預測錯誤的程度

0-1損失函式:

平方損失函式:

絕對損失函式:

對數損失函式:

指數損失函式:

期望風險:  風險函式  期望損失模型關於聯合分佈P(X,Y)的平均意義損失

學習目的使得期望風險最小,由於P(x,y)未知,上式無法求解。

經驗風險:   模型關於訓練集的平均損失

訓練集:

經驗風險:

期望風險是模型關於聯合分佈的期望損失,經驗風險是模型關於訓練集的平均損失,由大數定律:

當樣本容量N趨於無窮時,經驗風險趨於期望風險

由於實際中樣本數理有限,因此並不能直接用經驗風險來代替期望風險。

經驗風險最小化ERM:

當樣本容量足夠大時,學習效果很好。當模型為條件分佈,損失函式為對數函式,經驗風險最小化就是極大似然估計:

證明如下: