1. 程式人生 > >資料科學個人筆記:線性迴歸變種之彈性網路迴歸+區域性散點平滑估計

資料科學個人筆記:線性迴歸變種之彈性網路迴歸+區域性散點平滑估計

一、線性迴歸的變種:區域性加權線性迴歸(本地散點平滑估計LOESS)

1.形式:一種非引數學習演算法。區域性加權線性迴歸中,針對每個要預測的樣本點,我們都要對整個訓練集進行一次擬合,因為我們要根據不同訓練樣本與預測樣本的距離不同來調整每個樣本的權重。也就是選取一個W,使得各樣本均方誤差的加權和達到最小。可使用正規方程來求解,正規方程為W=(X^T*X)^-1 *X^T*A*y。A為對角矩陣,對角線每個值為一個樣本的權重,所以維度是樣本數*樣本數的。

2.確定權重矩陣:通常使用以下公式來計算權重,ai=exp[(xi-預測點的x)^2/(-2k^2)]。其中k為超引數,越大權重的差距就越小,趨於無窮時相當於常規的線性迴歸。k越小權重差距越大。K越小時擬合能力越強,但越可能過擬合。

二、線性迴歸的變種:ElasticNet迴歸

彈性網路迴歸同時使用l1和l2正則化項,損失函式為1 / (2 * n_samples) * ||y - Xw||^2_2+ alpha * l1_ratio * ||w||_1+ 0.5 * alpha * (1 - l1_ratio) * ||w||^2_2。所以lambda1和lambda2的指定是通過l1_ratio和alpha來完成。彈性網路是一種使用 L1, L2 範數作為先驗正則項訓練的線性迴歸模型。 這種組合允許學習到一個只有少量引數是非零稀疏的模型,就像 Lasso 一樣,但是它仍然保持一些像 Ridge 的正則性質。我們可利用 l1_ratio 引數控制 L1 和 L2 的凸組合。

彈性網路在很多特徵互相聯絡的情況下是非常有用的。Lasso 很可能只隨機考慮這些特徵中的一個,而彈性網路更傾向於選擇兩個。

在實踐中,Lasso 和 Ridge 之間權衡的一個優勢是它允許在迴圈過程(Under rotate)中繼承 Ridge 的穩定性由於包含l1正則化項,同樣要使用座標下降法來解決此問題。