機器學習方法中的一些基本概念
輸入空間、特徵空間和輸出空間
監督學習中,將輸入與輸出所有可能取值的集合稱為輸入空間與輸出空間。
輸入與輸出空間可以是有限集合,也可以是整個歐式空間;二者可以是同一個空間,也可以是不同的空間;通常情況下,輸出空間遠小於輸入空間。
每個具體輸入是一個例項,由特徵向量來表示,所有特徵向量存在的空間為特徵空間;特徵空間的每一維就對應著一個特徵。
聯合概率分佈
監督學習中假設輸入與輸出的隨機變數X,Y遵循聯合概率分佈P(X,Y),雖假設這一聯合概率分佈存在,但對於學習系統來講,其定義是未知的;訓練資料和測試資料看作是依聯合概率分佈獨立同分布產生的。
假設空間
機器學習的目的就是通過學習找到最好的由輸入到輸出的對映的模型,模型屬於從輸入空間到輸出空間的對映的集合,即假設空間。
統計學習三要素
方法 = 模型 + 策略 + 演算法
損失函式/代價函式
對於給定的輸入X(這裡X指的是向量), 輸出的預測值f(X)與真實值Y可能一致也可能不一致,用損失函式(loss function)或代價函式(cost function)來度量,我們的希望是損失函式值越小越好。
0-1損失函式
L(Y,f(X)) = 1,Y!=f(X);0,Y=f(X)
均方損失函式
L(Y,f(X)) =(Y-f(X))^2
絕對損失函式
L(Y,f(X)) =|Y-f(X)|
對數似然損失函式
L(Y,P(Y|X))=-logP(Y|X)
風險函式/期望損失
即損失函式的期望(上面我們假設輸入輸出遵循聯合概率分佈P(X,Y))
E =L(y,f(x))P(x,y)dxdy的積分
經驗風險/經驗損失
R = 1/N*(L(yi,f(xi))求和)
我們的目的就是經驗風險/經驗損失最小化
即 arg min R, 求對應的引數
結構風險最小化
通常情況下我們為了經驗風險最小,採取一定的措施後會發現,我們將模型過擬合了,導致模型的泛化能力變差
結構風險最小化是為了防止過擬合而提出的策略,另稱正則化或者懲罰項。
min R+n*J(f) n>=0;
正則化
正則化項可以取不同的形式:迴歸問題,損失函式是平方損失,正則化項可以取引數向量w的二正規化||w||^2;也可以取引數向量的一正規化||w||
交叉驗證
交叉驗證的基本思想是重複使用資料,把給定的資料進行切分,並組合為訓練集和測試集,在此基礎上進行反覆訓練,測試和模型選擇。
交叉驗證方法比較簡單卻普遍採用,不一一介紹