1. 程式人生 > 其它 >【統計學習方法】 統計學習及監督學習概論

【統計學習方法】 統計學習及監督學習概論

統計學習

關於計算機針對資料構建概率統計模型,並通過模型對資料進行分析預測

統計學習的分類

基本分類:監督學習,無監督學習,強化學習,半監督學習,自主學習

監督學習(superised learning):從標註資料中學習預測模型,本質是輸入到輸出的對映的統計規律

無監督學習(unsuperised learning):從無標註資料中學習預測模型,本質是學習資料中統計規律或潛在結構

強化學習(reinforcedlearning):指智慧系統在與環境的連續互動中學習最優行為策略,本質是學習最優的序貫決策

半監督學習(semi-superised learning):利用標註資料和未標註資料學習預測模型。旨在利用未標註資料中的資訊,輔助標註資料,進行監督學習,以較低成本達到學習效果

主動學習(active learing): 機器不斷給出例項讓教師進行標註,讓後利用標註資料學習預測模型。 目標找出對學習最有幫助的例項讓教師標註,以較小的標註代價達到學習效果。

按模型分類 :概率模型/非概率模型,線性模型/非線性模型,引數化模型/非引數化模型

概率模型(probabilistic model)/ 非概率模型(non-probabilistic model):

監督學習中,概率模型取條件概率分佈P(y|x)的形式,非概率模型取決策函式y = f(x)的形式;

無監督學習中,概率模型取條件概率分佈P(z|x)或P(x|z)的形式,非概率模型取決策函式z = g(x)的形式。

概率模型和非概率模型互相轉化

概率模型—>非概率模型:條件概率分佈最大化(極大似然估計)

非概率模型—>概率模型:函式歸一化

概率模型和非概率模型的區別不在於輸入輸出的對映關係,而在於模型的內在結構

線性模型(linear model)/非線性模型(non-linear model):

函式y=f(x)或z=g(x)為線性函式,則為線性模型;否則為非線性模型。

線性模型:感知機、線性支援向量機、k鄰近、k均值、潛在語義分析;

非線性模型:AdaBoost、核函式支援向量機、神經網路。

引數化(parametric model)/ 非引數化(non-parametric model):

引數化模型假設模型引數固定,模型由有限引數完全刻畫;非引數化模型假設模型引數不固定,隨資料量的增加而不斷增大。

按演算法分類:線上學習、批量學習

線上學習(online learning):一次接受一個樣本,進行預測,然後學習模型

批量學習(batch learing): 一次接受所有資料,學習模型,之後進行預測

按技巧分類:貝葉斯學習(Bayesian learning)、核方法(kernel method)

統計學習方法三要素

方法 =模型 +策略 +演算法

模型

模型是所要學習的條件概率分佈或決策函式。模型的假設空間(hyposisspace)包含所有的條件概率分佈或決策函式,用F表示

假設空間可以定義為決策函式的集合:

其中,X和Y是定義在輸入空間和輸出空間上的變數。這時F通常是一個引數向量決定的函式分佈族:

引數向量theta取值於歐氏空間R^n中,稱為引數空間(parameter space)。

假設空間可以定義為條件概率分佈的集合:

其中,X和Y是定義在輸入空間和輸出空間上的隨機變數。這時F通常是一個引數向量決定的概率分佈族:

引數向量theta取值於歐氏空間R^n中,稱為引數空間(parameter space)。

策略

策略是從假設空間中選取最優模型的準則

損失函式(loss function)/代價函式(cost function):度量模型一次預測的好壞

(1)0-1損失函式(0-1 loss function):

(2)平方損失函式 (quadratic loss function):

(3)絕對損失函式(absolute loss function):

(4)對數損失函式(logarithmic loss function)/對數似然損失函式(log-likelihood loss function):

風險函式(risk function)/期望損失(expected loss):

理論上模型f(X)關於聯合分佈P(X,Y)的平均意義下的損失

P(x, y)未知,無法計算期望損失

經驗風險(empirical risk)/ 經驗損失(empirical loss):

f(X)關於訓練集的平均損失

樣本容量N趨於無窮時,經驗風險趨於期望風險;

當樣本數目有限時,需要對經驗風險進行矯正——經驗風險最小化、結構風險最小化

經驗風險最小化(empirical risk minimization, ERM):

經驗風險最小的模型是最優的模型。

但樣本數量少時,會有“過擬合”。

結構風險最小化(structral risk minimization, SRM):

等價於正則化。

模型f越複雜,正則化項/罰項J(f)就越大

演算法

演算法是學習模型的具體計算方法。統計學習問題歸結為最優化問題,演算法成為求解最優化問題的方法