《ESL》學習筆記-第二章 監督學習概述
阿新 • • 發佈:2018-12-14
文章目錄
變數的型別
定量變數Y
- 舉例:身高,體重
- 編碼方式:標量
定性變數G
分類
- 有序定性變數
- 無序定性變數
舉例
- 有序定性變數:物體體積定性描述(小,中,大);
- 無序定性變數:物體的顏色(紅,綠,藍)
編碼方式
- 二類定性變數:0-1編碼或者(-1)-1編碼
- 多類定性變數:獨熱編碼(one-hot)——k類可以用一組k維向量表示,向量中只有某一維的值為1,其餘為0,比如 指示屬性“大”, 指示屬性“中”, 指示屬性“小”。
兩種最簡單的估計模型
線性模型(使用最小二乘估計)
線性模型
假設輸入向量為
,設
,則預測的輸出表示為:
為待估計引數。
最小二乘的解
問題:如何使用矩陣求導得到最小二乘的解?
聚類模型(使用最近鄰估計)
k-NN模型(k近鄰)
當k=1時即為最近鄰模型
模型含義
對應了特徵空間的劃分
- 當k=1時,特徵空間被劃分為若干子空間,每個子空間包含且僅包含一個訓練樣本點,子空間內所有點的輸出標記和訓練樣本點保持一致。
- 當k>1時,特徵空間的劃分變得複雜,但還是運用鄰域的思想。
兩種模型的差異
- 最小二乘模型比較穩定,但預測不準(方差小,偏差大)
- 最近鄰模型預測較準,但不穩定,易受訓練集噪聲干擾(方差大,偏差小)
模型的型別
- 決策式:用決策函式 表徵,上面介紹的兩種模型均為決策式模型。
- 生成式:用條件概率 表徵,可以描述輸入輸出間更為複雜的依賴關係。
統計決策論
期望預測誤差
設
表示損失函式,則期望預測誤差表示為:
而
是選擇決策函式
的重要判斷依據
偏差-方差分解
當損失函式為平方損失函式時,預測問題為迴歸問題時,
可以分解為偏差與方差之和。此時,
即
(均分誤差),並有
其中
表示真實函式,分解的兩項中前者為方差,後者為偏差。
高維情況下的區域性方法
高維帶來的問題
- 弱化了“鄰域”的概念,使得鄰域在單一維度下的表現不像鄰域。(需要覆蓋單一維度下足夠大的跨度)
- 使得靠近樣本空間邊界的樣本點的比例增多
- 容易造成樣本空間的稀疏性
- 使均分誤差變大1
結構化迴歸模型
在 中引入表徵結構複雜度的罰項,實際上是將對解空間模糊性的克服轉換為對約束條件(罰項)的選擇
均方誤差可以分解為偏差和方差之和,在不同的情況下,起支配作用的物件不同,比如當真實函式用到輸入資料的多維情況時,偏差容易起到支配作用;而當真實函式僅僅用到輸入資料的少量維度時,方容易起到支配作用。 ↩︎