1. 程式人生 > 程式設計 >關於多元線性迴歸分析——Python&SPSS

關於多元線性迴歸分析——Python&SPSS

原始資料在這裡

1.觀察資料

首先,用Pandas開啟資料,並進行觀察。

import numpy 
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
 
data = pd.read_csv('Folds5x2_pp.csv')
data.head() 

會看到資料如下所示:

關於多元線性迴歸分析——Python&SPSS

這份資料代表了一個迴圈發電廠,每個資料有5列,分別是:AT(溫度),V(壓力),AP(溼度),RH(壓強),PE(輸出電力)。我們不用糾結於每項具體的意思。

我們的問題是得到一個線性的關係,對應PE是樣本輸出,而AT/V/AP/RH這4個是樣本特徵, 機器學習的目的就是得到一個線性迴歸模型,即: PE=θ0+θ1∗AT+θ2∗V+θ3∗AP+θ4∗RH 而需要學習的,就是θ0,θ1,θ2,θ3,θ4這5個引數。

接下來對資料進行歸一化處理:

data = (data - data.mean())/data.std()

因為迴歸線的截距θ0是不受樣本特徵影響的,因此我們在此可以設立一個X0=1,使得迴歸模型為:

PE=θ0*X0+θ1∗AT+θ2∗V+θ3∗AP+θ4∗RH

將方程向量化可得:

PE = hθ(x) = θx (θ應轉置)

2.線性迴歸

線上性迴歸中,首先應建立 cost function,當 cost function 的值最小時所取得θ值為所求的θ。

線上性迴歸中,Cost function如下所示:

關於多元線性迴歸分析——Python&SPSS

因此,可以在Python中建立函式求損失方程:

def CostFunction(X,y,theta):
  inner = np.power((X*theta.T)-y,2)
  return np.sum(inner)/(2*len(X))

然後,設初始θ為=[0,0],可得到最初的J(θ)值為0.49994774247491858,程式碼如下所示

col = data.shape[1]
X = data.iloc[:,0:col-1]
y = data.iloc[:,col-1:col]
X = np.matrix(X.values)
y = np.matrix(y.values)
theta = np.matrix(np.array([0,0]))
temp = np.matrix(np.zeros(theta.shape))
CostFunction(X,theta)

接下來,有兩種方法可以使用。1.梯度下降法(gradient descent)和 2.最小二乘法(normal equation)。在此我們使用梯度下降法來求解。

梯度下降法是求得J對θ的偏導數,通過設定步長,迭代使J(θ)逐步下降,從而求得區域性最優解。

公式如下所示:

關於多元線性迴歸分析——Python&SPSS

j:特徵編號

m:樣本編號

我們可以在Python中寫出計算迭代後的θ和J(θ)

def gradientDescent(X,theta,alpha,iters):
  temp = np.matrix(np.zeros(theta.shape))
  parameters = int(theta.ravel().shape[1])
  cost = np.zeros(iters)
  for i in range(iters):
    error = (X*theta.T)-y
    
    for j in range(parameters):
      term = np.multiply(error,X[:,j])
      temp[0,j] = theta[0,j] - (alpha/len(X))*np.sum(term)
      
    theta = temp
    cost[i] = CostFunction(X,theta)
    
  return theta,cost

在此,我設定初始的α為0.1,可求得迭代1000次後θ0,θ4的值分別是:

-5.22080706e-14,-8.63485491e-01,-1.74182863e-01,2.16058120e-02,-1.35205248e-01

此時 J(θ)的值為0.0379648。

通過,視覺化J(θ)和迭代次數可以發現,J(θ)收斂的非常快。

關於多元線性迴歸分析——Python&SPSS

畫圖觀察預測值和損失值,距離直線約近說明損失越小:

predicted = X*g.T
predicted = predicted.flatten().A[0]
y_f= y.flatten().A[0]
fig,ax = plt.subplots()
ax.scatter(y_f,predicted)
ax.plot([y.min(),y.max()],[y.min(),'k--',lw=4)
ax.set_xlabel('Measured')
ax.set_ylabel('Predicted')
plt.show()

關於多元線性迴歸分析——Python&SPSS

3.sckit-learn

因為J(θ)收斂的太快了…所以我又用sckit-learn和SPSS驗證了一下。

先看sckit-learn,在sklearn中,線性迴歸是使用的最小二乘法而不是梯度下降法,用起來也十分的簡單。

程式碼如下:

from sklearn import linear_model 
model = linear_model.LinearRegression() 
model.fit(X,y) 

打印出θ值後發現和梯度下降法算出來的相差無幾,θ0,θ4的值分別是:

0,-0.86350078,-0.17417154,0.02160293,-0.13521023

4.SPSS

在看看SPSS

同樣先將資料標準化後進行線

關於多元線性迴歸分析——Python&SPSS

然後進行線性迴歸分析得到結果:

關於多元線性迴歸分析——Python&SPSS

嘛…和前面兩種方法的結果也差不多…就這樣吧。

以上這篇關於多元線性迴歸分析——Python&SPSS就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支援我們。