1. 程式人生 > >《機器學習》(西瓜書)筆記(3)--線性模型

《機器學習》(西瓜書)筆記(3)--線性模型

思路 ensemble n-1 containe 線性分類 mvm img 很大的 數學

第三章 線性模型
3.1 基本形式線性模型(linear model)試圖學得一個通過屬性的線性組合來進行預測的函數,即技術分享一般用向量形式寫成技術分享,其中技術分享w 和 b 學得之後, 模型就得以確定。

3.2 線性回歸對離散屬性的處理:
  1. 若屬性值間存在序關系,可通過連續化將其轉化為連續值,例如二值屬性“身高”的取值“高”“矮”可轉化為 {1.0, 0.0};
  2. 若屬性值間不存在序關系,假定有 k 個屬性值,則通常轉化為 k 維向量。

技術分享均方差誤差最小技術分享 基於均方誤差最小化來進行模型求解的方法稱為最小二乘法(least square method)線性回歸模型的最小二乘參數估計:指求解 w 和 b 使 E(w, b) = ∑(yi
- wxi - b)2 最小化的過程。技術分享 對數線性回歸(log-linear regression)技術分享 技術分享 廣義線性模型:考慮單調可微函數g,令技術分享這樣得到的模型稱為廣義線性模型(generalized linear model),函數 g 稱為聯系函數(link function)。

3.3 對數幾率回歸分類任務如何處理?對數幾率函數(logistic function)技術分享 技術分享技術分享 技術分享 幾率:若將 y 看做樣本 x 為正例的可能性,則 1-y 為樣本 x 為反例的可能性,這兩者的比例稱為幾率。對數幾率:將上述幾率取對數。
對數幾率回歸:(**)式實際上是用線性回歸模型的預測結果去逼近真實標記的對數幾率,因此,其對應的模型稱為對數幾率回歸(logistic regression)。它是一種分類學習方法。
對數幾率回歸的優點
  1. 它直接對分類可能性進行建模,無需事先假設數據分布,避免了假設分布不準確所帶來的問題。
  2. 它不僅預測出類別,還得到近似概率預測,對許多需利用概率輔助決策的任務很有用。
  3. 對率函數是任意階可導的凸函數,有很好的數學性質,現有的許多數值優化算法都可直接用於求取最優解。

如何確定(**)式中的 w 和 b?


3.4 線性判別分析線性判別分析(Linear Discriminant Analysis,簡稱LDA)的思想:給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影盡可能接近,異類樣例的投影盡可能遠離。在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來去頂新樣本的類別。
技術分享
3.5 多分類問題
多分類問題的基本思路是拆解法,即將多分類的任務拆為若幹個二分類任務求解。最經典的拆分策略有三種:一對一(One vs. One,簡稱OvO),一對其余(One vs. Rest,簡稱OvR)和多對多(Many vs. Many,簡稱MvM)
考慮 N 個類別C1,C2,...,CN,給定數據集 D = {(x1,y1),(x2,y2),...,(xm,ym)}, yi ∈ {C1,C2,...,CN}OvO將這 N 個類別兩兩配對,從而產生 N(N-1)/2 個二分類任務。OvR是每次將一個類的樣例作為正例、所有其他類的樣例作為反例來訓練 N 個分類器。
技術分享
MvM是每次將若幹個類作為正類,若幹個其他類作為反類。MvM的正、反類構造必須有特殊的設計,不能隨意選取。最常見的MvM技術為糾錯輸出碼(Error Correcting Output Codes, 簡稱ECOC)。技術分享 技術分享 糾錯:在測試階段,ECOC編碼對分類的錯誤有一定的容忍和修正能力。
  1. 一般來說,對同一個學習任務,ECOC編碼越長,糾錯能力越強。
  2. 對同等長度的編碼,理論上來說,任意兩個類別之間的編碼距離越遠,則糾錯能力越強。


3.6 類別不平衡問題前面幾個分類學習方法都有一個共同的假設:不同類別的訓練樣例數目相同。類別不平衡(class-imbalance):指分類任務中不同類別的訓練樣例數目差別很大的情況。
以線性分類器為例,在用 y = wTx + b對新樣本 x 進行分類時,實際上是在用預測出的 y 值與一個閾值進行比較,大於閾值時為正例,反之則為反例。1. 正、反例數目相同時的閾值是0.5,即技術分享 2. 正、反例數目不同時的閾值是 m+ / (m+ + m-),即技術分享 m+ 表示正例數目,m- 表示返利數目。 這就是類別不平衡學習的一個基本策略——再縮放(rescaling)技術分享
當“訓練集是真實樣本總體的無偏采樣”這個假設不成立時,有以下方法:
方法欠采樣(undersampling)過采樣(oversampling)閾值移動(threshold-moving)
詳情去除一些反例使得正、反例數目接近,然後進行學習增加一些正例使得正、反例數目接近,然後再進行學習直接基於原始訓練集進行學習,但在用訓練好的分類器進行預測時,將再縮放的公式嵌入到決策過程中
1. 時間開銷較小
2. 不能隨機丟棄反例,可能丟失重要信息。
3. 代表算法EasyEnsemble
1.不能簡單的對初始正例樣本進行重復采樣,否則會招致嚴重的過擬合。
2. 代表算法SMOTE
再縮放也是代價敏感學習的基礎。

《機器學習》(西瓜書)筆記(3)--線性模型