《機器學習》（西瓜書）筆記（3）--線性模型

阿新 • • 發佈：2017-06-20

思路 ensemble n-1 containe 線性分類 mvm img 很大的數學

第三章線性模型
3.1 基本形式線性模型（linear model）試圖學得一個通過屬性的線性組合來進行預測的函數，即

一般用向量形式寫成

，其中

w 和 b 學得之後，模型就得以確定。

3.2 線性回歸對離散屬性的處理：

若屬性值間存在序關系，可通過連續化將其轉化為連續值，例如二值屬性“身高”的取值“高”“矮”可轉化為 {1.0, 0.0}；
若屬性值間不存在序關系，假定有 k 個屬性值，則通常轉化為 k 維向量。

均方差誤差最小 技術分享

基於均方誤差最小化來進行模型求解的方法稱為最小二乘法（least square method）。線性回歸模型的最小二乘參數估計：指求解 w 和 b 使 E(w, b) = ∑(y_i

- wx_i - b)² 最小化的過程。

對數線性回歸（log-linear regression）：

廣義線性模型：考慮單調可微函數g，令

這樣得到的模型稱為廣義線性模型（generalized linear model），函數 g 稱為聯系函數（link function）。

3.3 對數幾率回歸分類任務如何處理？對數幾率函數（logistic function）：技術分享

幾率：若將 y 看做樣本 x 為正例的可能性，則 1-y 為樣本 x 為反例的可能性，這兩者的比例稱為幾率。對數幾率：將上述幾率取對數。
對數幾率回歸：(**)式實際上是用線性回歸模型的預測結果去逼近真實標記的對數幾率，因此，其對應的模型稱為對數幾率回歸（logistic regression）。它是一種分類學習方法。
對數幾率回歸的優點

：

它直接對分類可能性進行建模，無需事先假設數據分布，避免了假設分布不準確所帶來的問題。
它不僅預測出類別，還得到近似概率預測，對許多需利用概率輔助決策的任務很有用。
對率函數是任意階可導的凸函數，有很好的數學性質，現有的許多數值優化算法都可直接用於求取最優解。

如何確定(**)式中的 w 和 b？

3.4 線性判別分析線性判別分析（Linear Discriminant Analysis，簡稱LDA）的思想：給定訓練樣例集，設法將樣例投影到一條直線上，使得同類樣例的投影盡可能接近，異類樣例的投影盡可能遠離。在對新樣本進行分類時，將其投影到同樣的這條直線上，再根據投影點的位置來去頂新樣本的類別。
技術分享

3.5 多分類問題

多分類問題的基本思路是拆解法，即將多分類的任務拆為若幹個二分類任務求解。最經典的拆分策略有三種：一對一（One vs. One，簡稱OvO），一對其余（One vs. Rest，簡稱OvR）和多對多（Many vs. Many，簡稱MvM）。
考慮 N 個類別C₁,C₂,...,C_N,給定數據集 D = {(x₁,y₁),(x₂,y₂),...,(x_m,y_m)}, y_i ∈ {C₁,C₂,...,C_N}OvO將這 N 個類別兩兩配對，從而產生 N(N-1)/2 個二分類任務。OvR是每次將一個類的樣例作為正例、所有其他類的樣例作為反例來訓練 N 個分類器。
技術分享

MvM是每次將若幹個類作為正類，若幹個其他類作為反類。MvM的正、反類構造必須有特殊的設計，不能隨意選取。最常見的MvM技術為糾錯輸出碼（Error Correcting Output Codes, 簡稱ECOC）。技術分享

糾錯：在測試階段，ECOC編碼對分類的錯誤有一定的容忍和修正能力。

一般來說，對同一個學習任務，ECOC編碼越長，糾錯能力越強。
對同等長度的編碼，理論上來說，任意兩個類別之間的編碼距離越遠，則糾錯能力越強。

3.6 類別不平衡問題前面幾個分類學習方法都有一個共同的假設：不同類別的訓練樣例數目相同。類別不平衡（class-imbalance）：指分類任務中不同類別的訓練樣例數目差別很大的情況。
以線性分類器為例，在用 y = w^Tx + b對新樣本 x 進行分類時，實際上是在用預測出的 y 值與一個閾值進行比較，大於閾值時為正例，反之則為反例。1. 正、反例數目相同時的閾值是0.5，即

2. 正、反例數目不同時的閾值是 m⁺ / (m⁺ + m^-)，即技術分享

m⁺表示正例數目，m^-表示返利數目。這就是類別不平衡學習的一個基本策略——再縮放（rescaling）。技術分享

當“訓練集是真實樣本總體的無偏采樣”這個假設不成立時，有以下方法：

方法	欠采樣（undersampling）	過采樣（oversampling）	閾值移動（threshold-moving）
詳情	去除一些反例使得正、反例數目接近，然後進行學習	增加一些正例使得正、反例數目接近，然後再進行學習	直接基於原始訓練集進行學習，但在用訓練好的分類器進行預測時，將再縮放的公式嵌入到決策過程中
註	1. 時間開銷較小 2. 不能隨機丟棄反例，可能丟失重要信息。 3. 代表算法EasyEnsemble	1.不能簡單的對初始正例樣本進行重復采樣，否則會招致嚴重的過擬合。 2. 代表算法SMOTE	再縮放也是代價敏感學習的基礎。

《機器學習》（西瓜書）筆記（3）--線性模型

《機器學習》（西瓜書）筆記（3）--線性模型

《機器學習》西瓜書讀書筆記|基本術語

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [7] 支援向量機（一）

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [8] 支援向量機（二）

機器學習吳恩達課程筆記（自用，持續更新）

特徵工程和模型融合--機器學習--思維導圖和筆記（29）

深度學習，周志華，機器學習，西瓜書，TensorFlow，Google，吳軍，數學之美，李航，統計學習方法，吳恩達，深度學習筆記，pdf下載

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [9] 決策樹

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [10] 決策樹實踐

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [11] 整合學習

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [12] 整合學習實踐

python實現《機器學習》西瓜書習題5.7RBF網路解決異或問題

《機器學習》(西瓜書) 隨筆

python實現《機器學習》西瓜書習題5.6自適應學習率的BP改進演算法

【機器學習－西瓜書】七、樸素貝葉斯分類器

（吳恩達筆記 1-3）——損失函式及梯度下降

【機器學習－西瓜書】二、效能度量：召回率；P-R曲線；F1值；ROC;AUC

《機器學習》西瓜書課後習題參考答案

《機器學習》西瓜書第一章緒論

機會 | 帶學《機器學習》西瓜書+帶打NLP演算法大賽

機器學習(周志華) 參考答案第三章線性模型 3.3

《機器學習》（西瓜書）筆記（3）--線性模型

相關推薦