區域性權重線性迴歸

阿新 • • 發佈：2018-12-12

之前的一些知識讓我們總結機器學習的一般過程，是從訓練到預測的順序過程。通過一系列的歷史資料，總結出一個數學模型，再根據數學模型預測未來的結果。
這一切應該都是建立在未來和過去存在聯絡的假設上，未來的一些行為與過去的一些行為類似。同樣的條件下，可能會出現同樣的結果。
之前的線性迴歸模型，也同樣是通過歷史資料，無論是房價的變化還是蟲子的鳴叫。模型認為每份資料的權重是一樣的，對未來預測模型的貢獻是相同的。區域性權重模型會認為，離預測點越近的歷史資料與當前資料的關係越大，他的趨勢越可能表現當前點的資料趨勢。比如你會認為最近一個月的股票走勢比一年前的股票走勢對明天股票漲跌的影響更大。
區域性權重線性迴歸不是一個訓練過程，而是一個結合訓練和預測一體的一種模型。
傳統的線性迴歸模型，是這樣的：
1. 根據歷史資料得到

J (θ) = \sum_{i} (y^{i} - θ^{T} x^{i})^{2}

$J(\theta)=\sum_i(y^i-\theta^Tx^i)^2$

2. 通過梯度下降或者牛頓法等最優化方法尋找合適的

θ

$\theta$ ,使得

J (θ)

$J(\theta)$ 最小
3. 預測新的資料點
而區域性權重線性迴歸是這樣的：
1. 定義

J (θ) = \sum_{i} w^{i} (y^{i} - θ^{T} x^{i})^{2}

$J(\theta)=\sum_iw^i(y^i-\theta^Tx^i)^2$ ,其中

w^{i} = e x p (- \frac{(x^{i} - x)^{2}}{2 τ^{2}})

$w^i=exp(-\frac{(x^i-x)^2}{2\tau^2})$ ,其中x即是想預測的值，這樣可以影響每條資料的損失值對總的損失值的影響，離預測點越近影響越大，離得越遠影響越小，

τ

$\tau$ 稱為頻寬(bandwidth)引數,可以控制x周圍的概念，即控制距離

x

$x$ 多遠可以參與線性函式的估計，

τ

$\tau$ 越大，影響力大的點越多，反之，影響力大的點越少。
2. 同樣根據梯度下降或者牛頓法等最優化方法尋找合適的

θ

$\theta$ ,使得

J (θ)

$J(\theta)$ 最小
方法的缺點在於每次預測新資料時，都需要重新計算，而傳統的線性迴歸演算法只需要一次性計算出合適的

θ

$\theta$ 後，就可以直接使用，而無需儲存訓練資料集。

當然，我覺得這裡面採用的 $w^i=exp(-\frac{(x^i-x)^2}{2\tau^2})$ 是認為影響資料滿足一種高斯分佈的狀態，簡化的話我覺得可以使用 $w^i=|\frac{1}{x^i-x}|$ 這種應該也是可以的，或者是更復雜的距離模型，只要能滿足其核心思想：越近的資料影響越大即可。以上是個人的想法，無需在意~

區域性權重線性迴歸

區域性權重線性迴歸

區域性權重線性迴歸(Locally weighted linear regression)

線性模型-區域性加權線性迴歸機器學習實戰

【機器學習】區域性加權線性迴歸

區域性加權線性迴歸（內含程式碼）

線性迴歸係數，區域性加權線性迴歸係數的數學推導

區域性加權線性迴歸（Locally weighted linear regression）

機器學習基礎（三十） —— 線性迴歸、正則化（regularized）線性迴歸、區域性加權線性迴歸（LWLR）

機器學習實戰——線性迴歸和區域性加權線性迴歸（含python中複製的四種情形！）

機器學習（六）——區域性加權線性迴歸（Locally weighted linear regression）

線性迴歸-4-欠擬合、過擬合與區域性加權線性迴歸

線性迴歸4（線性擬合、區域性線性擬合實戰）---機器學習

資料科學個人筆記：線性迴歸變種之彈性網路迴歸+區域性散點平滑估計

資料探勘經典演算法：線性迴歸、區域性加權迴歸、嶺迴歸、逐步線性迴歸 sklearn實現

迴歸：最佳擬合直線與區域性線性迴歸

matlab做三維線性擬合（多元線性迴歸，準確來說不叫插值）

matlab實現線性迴歸成績預測

線性迴歸矩陣求導

Logistics迴歸與線性迴歸

Andrew機器學習課程章節4——多變數線性迴歸

區域性權重線性迴歸

相關推薦