區域性加權線性迴歸（內含程式碼）

阿新 • • 發佈：2019-01-17

在之前的部落格中我們已經簡單討論過一些迴歸的演算法，如使用假設和梯度下降法的單變數線性迴歸和多變數線性迴歸以及採用正規方程的線性迴歸，這次我們簡單討論一下區域性加權線性迴歸（Local Weighted Liner Regression）。
區域性加權迴歸可以看做正規方程的一種改進，通過上次部落格中的程式碼，我們針對那個資料集會產生一個下圖所示的擬合曲線：
這裡寫圖片描述
從上面可以看出，該曲線擬合的效果不是很好，存在著欠擬合的現象，但是對於正規方程來說這是最好的擬合曲線。所以我們想尋求一種方式對上述方法進行改進，從而降低估計時的均方誤差。
其中一種方法就是區域性加權迴歸。該演算法不像正規方程一樣，對於所有的預測點，訓練樣本集上對它的作用是相同的，這種演算法採用核的方法對於不同測試樣本賦予訓練樣本不同權值，該方法求解出迴歸係數θ

的形式如下：

θ=(XTWX)−1XTWy

其中，W是一個矩陣，代表對於每個資料點賦予的不同權重。
W確定的方式一般採用核的方法實現，其中最常用的核是高斯核，高斯核的確定方式為：

W(i,i)=exp(|x(i)−x|−2k2)

上式中的k值決定了對於附近的點應該賦予多大的權值。高斯核的物理含義為：對於靠近測試點的樣本點，賦予更大的權值距離測試點越遠的樣本點，權值越小。下圖顯示了k值與權重的關係（假設預測點為0.5）：
這裡寫圖片描述
當k=0.5時，大部分的資料都用於訓練迴歸模型；而對於k=0.01時，僅有很少的資料點用於訓練迴歸模型。
從上面分析中，我們可以看出，相對於正規方程，區域性加權線性迴歸的計算複雜度大得多，因為對於每個測試點進行預測時，都需要所有的訓練資料集。但是該方法的擬合效果明顯可以好於正規方程的擬合效果。

區域性加權線性迴歸的程式碼如下：

# -*- coding: utf-8 -*-
"""
Created on Fri Nov 17 09:58:51 2017

@author: YL Wang
"""
import numpy as np
import matplotlib.pyplot as plt

def loadDataSet(fileName):

    num_fea=len(open(fileName).readline().split(','))-1 #獲得特徵的數量
    fr=open(fileName)   #開啟檔案
    featureArr=[]
    labelArr=[]
    # 讀取每一行的資料 

    for line in fr.readlines():
        line_fea=[]
        line_data=line.strip().split(',')   #將每一行的資料按照','分隔開（使用什麼分隔開看資料本身的構成）
        line_data.insert(0,'1') #將特徵進行擴充，將特徵矩陣轉化為增廣矩陣的形式
        for i in range(num_fea+1):
            line_fea.append(float(line_data[i]))    #得到每一行的特徵

        featureArr.append(line_fea)
        labelArr.append(float(line_data[-1]))   #得到每一行的標籤

    return featureArr,labelArr

# 對於每個測試點求得最佳的theta
def lwlr(testpoint,featureArr,labelArr,k=1.0):
    feature = np.mat(featureArr)
    label = np.mat(labelArr).T
    num_sample = np.size(label)    #確定樣本的個數

    weight = np.mat(np.eye(num_sample))   #初始化權重矩陣

    #確定權重
    for i in range(num_sample):
        diffMat = testpoint - feature[i,:]
        weight[i,i] = np.exp((diffMat*diffMat.T)/(-2*k**2))   
    xTwx = feature.T * weight * feature

    if np.linalg.det(xTwx) == 0.0:
        print("This matrix is singular, cannot do inverse")
        return
    theta = xTwx.I * feature.T * weight * label

    return theta

# 使用訓練樣本來進行測試效能    
def lwlrtest(featureArr,labelArr,k):
    feature = np.mat(featureArr)
    label = np.mat(labelArr)
    num_sample = np.size(feature[:,1])
    predict = np.zeros(num_sample)
    for i in range(num_sample):
        testpoint = feature[i,:]
        theta = lwlr(testpoint,feature,label,k)
        predict[i] = testpoint * theta

    return predict


## 主程式
#得到特徵以及對應的標籤
featureArr,labelArr=loadDataSet('ex1data1.txt')
# 得到訓練集預測的結果
k = 0.4
predict = lwlrtest(featureArr,labelArr,k)

# 繪製圖像
feature = np.mat(featureArr)
srtInd = feature[:,1].argsort(0)    # 對特徵進行排序，得到排序後特徵的標籤
feature_sort = feature[srtInd][:,0,:]   #得到排序後的特徵
label = np.mat(labelArr)
fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(feature_sort[:,1],predict[srtInd])  #繪製擬合的曲線
ax.scatter(feature[:,1].flatten().A[0],label.T.flatten().A[0],s=2,c='red')

下面顯示了對於不同的k值，產生的擬合效果：
當k=1時的擬合效果

當k=0.5時的擬合效果
這裡寫圖片描述
當k=0.2時的擬合效果

明顯看出k值的選擇對於擬合的效果有很大的影響，當k=1時，擬合效果不是很好，仍然存在較大的均方誤差；對於k=0.5時，擬合效果會好很多；很明顯對於k=0.2時，擬合效果有點過擬合。

本人菜鳥一枚，有理解不對的地方歡迎指正。

區域性加權線性迴歸（內含程式碼）

區域性加權線性迴歸（內含程式碼）

區域性加權線性迴歸（Locally weighted linear regression）

機器學習基礎（三十） —— 線性迴歸、正則化（regularized）線性迴歸、區域性加權線性迴歸（LWLR）

機器學習實戰——線性迴歸和區域性加權線性迴歸（含python中複製的四種情形！）

機器學習（六）——區域性加權線性迴歸（Locally weighted linear regression）

機器學習實戰（七）線性迴歸（Linear Regression）

機器學習筆記——線性迴歸（Linear Regression）

機器學習-線性迴歸（LMS Algorithm）

線性模型-區域性加權線性迴歸機器學習實戰

線性迴歸（含推導）

用python來實現機器學習（一）：線性迴歸（linear regression）

機器學習之線性迴歸（Linear Regression）

線性迴歸（logistic regression）

機器學習-線性迴歸（LMS Algorithm）

基於Ubuntu16.04+Spark+Python的線性迴歸（linear regression）演算法

機器學習經典演算法詳解及Python實現--線性迴歸（Linear Regression）演算法

【機器學習】區域性加權線性迴歸

Tensorflow環境下線性迴歸（梯度下降）的練手例項（完整原始碼+說明）

斯坦福：機器學習CS229：Exercise 1: Linear Regression線性迴歸（答案1）

多項式迴歸（polynomial regression）轉換為線性迴歸（linear regression）

區域性加權線性迴歸（內含程式碼）

相關推薦