1. 程式人生 > >李航《統計學習方法》第一章 機器學習三要素

李航《統計學習方法》第一章 機器學習三要素

chapter1 統計學習方法概論

統計學習三要素

model 模型

假設空間 決策函式的集合 f={f|Y=f(X)}
引數空間 /theta

strategy 策略:

1)如何選擇模型?考量:
i.損失函式
e.g.如果是Square loss,那就是最小二乘了;如果是Hinge Loss,那就是著名的SVM了;如果是exp-Loss,那就是牛逼的 Boosting了;如果是log-Loss,那就是Logistic Regression了;還有等等。不同的loss函式,具有不同的擬合特性
ii.風險函式: 損失函式的期望
學習的目標是選擇期望風險最小的模型,而一般用經驗風險(樣本集的平均損失)來估計期望風險

2)監督學習常用的兩種策略:
i.經驗風險最小化:選擇經驗風險最小的模型
e.g.模型是條件概率分佈,損失函式是對數損失函式,模型複雜度由模型的先驗概率表示時,結構風險最小化就等價於最大後驗概率分佈
ii.結構風險最小化:引入正則化項/懲罰項,防止過擬合
e.g.模型是條件概率分佈,損失函式是對數損失函式時,經驗風險最小化等價於極大似然估計

懲罰項一般是模型複雜度的單調遞增函式,模型越複雜,規則化值就越大。
e.g.模型引數向量的L0範數、L1範數、L2範數、跡範數、Frobenius範數,核範數,etc。

algorithm

求解最優化問題的演算法
e.g.梯度下降法,牛頓法

模型評估

泛化能力i.e.預測能力
訓練誤差
測試誤差
過擬合vs欠擬合

監督學習

監督學習方法可分為
- 生成方法 generative approach
主要學習聯合概率分佈P(X,Y)
e.g.樸素貝葉斯,隱馬爾科夫
優點:學習收斂速度更快,樣本容量增加時速度更快,適用於存在隱變數的情況
- 判別方法 discriminative approach
直接得出決策函式Y = f(X)或P(Y|X)
e.g. k-means, 感知機,決策樹,邏輯迴歸,最大熵,支援向量機,提升方法,條件隨機場
優點:準確率更高,便於資料的抽象和特徵提取

監督學習包括

  • 分類問題(Y離散)
    二類分類問題常用評價指標是準確率precision和召回率recall,以及綜合二者的F1 score
  • 標註問題
    對輸入序列進行標記
    常用方法:隱馬爾科夫,條件隨機場
  • 迴歸問題
    等價於函式擬合,常用損失函式為平方損失函式,此時可用最小二乘法求解

統計學review

  • 大數定理
    在重複試驗中,隨著試驗次數的增加,事件發生的頻率趨於一個穩定值
    切比雪夫定理的一個特殊情況、辛欽定理和伯努利大數定律都概括了這一現象都稱為大數定律

  • 極大似然概率
    使用情況:模型已定,引數未知
    f(x1,x2,...,xn|Θ)
    假設所有采樣獨立同分布,f為模型,θ為模型引數
    定義似然函式:
    L(Θ|x1,x2,...,xn)=f(x1,x2,...,xn|Θ)
    使函式值最大化(對Θ取一階導數)的Θ值就是 Θ的最大似然估計
    求法:
    因為獨立同分布
    L(Θ|x1,x2,...,xn)=f(x1,x2,...,xn|Θ)=ni=1f(xi|Θ)
    兩邊取對數(因為對數函式是單調增函式,與L有相同的最大值點,而求ln的值相對簡單些^[1])
    lnL(Θ|x1,x2,...,xn)=ni=1lnf(xi|Θ)
    對引數Θ求導,令一階導數為零,就得出最大似然估計值
    Θmle=argmax1nlnL
    更多參考

  • 貝葉斯估計
    這裡寫圖片描述

假設Θ存在一個先驗分佈g
那麼Θ的後驗分佈為
Θ=f(x|θ)g(θ)Θf(x|θ)g(θ)dθ
最大後驗概率估計 即為 後驗概率分佈的眾數
ΘMAP(x)=argmaxθf(x|θ)g(θ)
可以看做正則化的最大似然估計,當g是常數時兩者等價

極大似然估計和貝葉斯估計分別代表了頻率派和貝葉斯派的觀點。頻率派認為,引數是客觀存在的,只是未知而矣。相反的,貝葉斯派認為引數也是隨機的,和一般隨機變數沒有本質區別,正是因為引數不能固定,當給定一個輸入x後,我們不能用一個確定的y表示輸出結果,必須用一個概率的方式表達出來,所以貝葉斯學派的預測值是一個期望值。最大後驗概率和極大似然估計很像,只是多了一項先驗分佈,它體現了貝葉斯認為引數也是隨機變數的觀點,在實際運算中通常通過超引數給出先驗分佈。

更多參考

  • 最小二乘法
    通過最小化誤差的平方和尋找資料的最佳函式匹配

範數review

L0範數

向量中非0的元素的個數
如果我們用L0範數來規則化一個引數矩陣W的話,就是希望W的大部分元素都是0

L1範數

向量中各個元素絕對值之和,i.e. “稀疏規則運算元”(Lasso regularization),lasso是套繩的意思,是 L0範數的最優凸近似

L0 v.s. L1
稀疏規則化可以實現特徵的自動選擇,在預測新樣本時自動忽略無用的特徵;而且模型更好理解。 L1範數和L0範數可以實現稀疏,L1因具有比L0更好的優化求解特性而被廣泛應用。

L2範數

向量各元素的平方和然後求平方根, i.e. “嶺迴歸”(Ridge Regression)or “權值衰減weight decay”
用於改善過擬合;有助於處理ill-condition的情況,讓優化求解更加穩定和快速。

condition number
假設我們有個方程組AX=b,我們需要求解X。如果A或者b稍微的改變,會使得X的解發生很大的改變,那麼這個方程組系統就是ill-condition的,反之就是well-condition的。一般用condition number衡量系統對微小變化的敏感度,定義為矩陣A(A是非奇異的i.e.可逆)的norm(範數)乘以它的逆的norm。condition number值小(在1附近)的就是well-conditioned的,大的(遠大於1)就是ill-conditioned的。)

以上參考 博文

習題

1、伯努利模型n次獨立實驗中k次結果為1,估計結果為1的概率
模型為P(y=1|x)=θ
1)用極大似然估計
L(θ)=f(x1,x2,...xn|θ)=Cknθk(1θ)nk
直接求一階導數另其等於零
kθk1(1θ)nk(nk)θk(1θ)nk1=0
得到0,1,kn 三個解
2)用貝葉斯估計中的最大後驗概率估計
(參考教材中“模型是條件概率分佈,損失函式是對數損失函式,模型複雜度由模型的先驗概率表示時,結構風險最小化就等價於最大後驗概率分佈”)
2、通過經驗風險最小化推導極大似然估計,證明模型是條件概率分佈,損失函式是對數損失函式時,經驗風險最小化等價於極大似然估計