機器學習筆記(周志華)3
1· 第三章 線性模型
3.1基本形式
非線性模型可以線上性模型的基礎上通過引入層級結構或高維對映而得
3.2線性迴歸
對離散屬性,若屬性值間存在“序”關係,比如{1,0},若屬性值間不存在序關係,假定有k個屬性值,則通常轉化為k維向量,
線性迴歸試圖學得f(Xi)=WXi+Bi,使得f(Xi)≈Yi
均方誤差是迴歸中最常用的效能度量,因此我們可以試圖讓均方誤差最小化
均方誤差有很好的幾何意義,它對應了常用的歐幾里得距離或“歐氏距離”
基於均方誤差最小化來進行模型求解的方法稱為“最小二乘法”
線上性迴歸中,最小二乘法就是試圖找到一條直線,使所有樣本到直線上的歐式距離之和最小
線性模型的最小二乘“引數估計”
更一般的情形是“多元線性迴歸”
常用的做法是引入正則化
"廣義線性模型"如“對數線性迴歸”
3.3對數機率迴歸
對於分類任務,找一個單調可微函式將分類任務的真實標記y與線性迴歸模型的預測值聯絡起來
“單位階躍函式”
例如:y=0 z<0
y=0.5 z=0
y=1 z>0
即若預測值z大於零就判為正例,小於零則判為反例,為臨界值則可以任意判別
因為單位階躍函式不連續,所以我們使用對數機率函式,在一定程度上近似單位階躍函式
y=1/(1+e^(-z))
“對數機率迴歸”是一種分類學習方法
3.4線性判別分析
線性判別分析(LDA)是一種經典的線性學習方法
LDA的思想非常樸素:給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點儘可能接近,異類樣例的投影點儘可能遠離,在對新樣例進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來確定新樣本的類別
欲使同類樣例的投影點儘可能接近,可以讓同類樣例投影點的協方差儘可能小
欲使異類樣例的投影點儘可能遠離,可以讓類中心之間的距離儘可能大
LDA可從貝葉斯決策理論的角度來闡釋,並可證明,當兩類資料同先驗,滿足高斯分佈且協方差相等時,LDA可達到最優分類
LDA被視為一種經典的監督降維技術
3.5多分類學習
多分類學習的基本思路是“拆解法”,即將多分類任務拆為若干個二分類任務求解
最經典的拆分策略有三種:“一對一”(OvO)“一對其餘”(OvR)和“多對多”(MvM)
OvO將N個類別兩兩配對,從而產生N(N-1)/2個二分類任務,把預測得最多的類別作為最終分類結果
OvR每次將一個類的樣例作為正例,所有其他類的樣例作為反例來訓練N個分類器,在測試時若僅有一個分類器預測為正類,則對應的類別標記作為最終分類結果
OvO的儲存開銷和測試時間開銷通常比OvR大,但OvO的訓練時間開銷比OvR小,至於預測效能,則取決於具體的資料分佈,在多數情況下兩者差不多
MvM是每次將若干個類作為正類,若干個類作為反類
“糾錯輸出碼”(EOOC)
EOOC工作過程主要分為兩步:
編碼:對N個類別做M次劃分,每次劃分將一部分類別化為正類,一部分化為反類,從而形成一個二分類訓練集,這樣一共產生M個訓練集,可訓練出M個分類器
解碼:M個分類器分別對測試樣本進行預測,這些預測標記組成一個編碼。將這個編碼與每個類別各自的編碼進行比較,返回其中距離最小的類別最為最終預測結果