迴歸分析（三）——多項式迴歸解決非線性問題

阿新 • • 發佈：2019-02-11

【將線性迴歸模型轉換為曲線——多項式迴歸】

之前都是將解釋變數和目標值之間的關係假設為線性的，如果假設不成立，可以新增多項式選項，轉換為多項式迴歸。

【sklearn實現多項式迴歸】

1、PoltnomialFeatures實現二項迴歸

# quadratic  二項迴歸
from sklearn.preprocessing import PolynomialFeatures
X = np.array([258.0, 270.0, 294.0, 
              320.0, 342.0, 368.0, 
              396.0, 446.0, 480.0, 586.0])\
             [:, np.newaxis]


y = np.array([236.4, 234.4, 252.8, 
              298.6, 314.2, 342.2, 
              360.8, 368.0, 391.2,
              390.8])
lr = LinearRegression()
pr = LinearRegression()
quadratic = PolynomialFeatures(degree=2) #二項式
X_quad = quadratic.fit_transform(X)

2、建立線性迴歸模型便於對比

# fit linear features
lr.fit(X, y)
X_fit = np.arange(250, 600, 10)[:, np.newaxis]
y_lin_fit = lr.predict(X_fit)

3、為多項式迴歸的transform特徵fit 一個多變量回歸模型

# fit quadratic features
pr.fit(X_quad, y )
y_quad_fit = pr.predict(quadratic.fit_transform(X_fit))

4、plot

#plot
plt.scatter(X,y, label = 'traing data')
plt.plot(X_fit, y_lin_fit, label = 'linear fit', linestyle = '--')
plt.plot(X_fit, y_quad_fit, label = 'quadratic fit')
plt.legend (loc = 'upper left')
plt.show()

5、模型評估

# MSE R^2
y_lin_pred = lr.predict(X)
y_quad_pred = pr.predict(X_quad)

print('Training MSE linear: %.3f, quadratic: %.3f' % (
        mean_squared_error(y, y_lin_pred),
        mean_squared_error(y, y_quad_pred)))
print('Training R^2 linear: %.3f, quadratic: %.3f' % (
        r2_score(y, y_lin_pred),
        r2_score(y, y_quad_pred)))

【housing data 建立非線性模型】

''# modeling nonlinear relationship in the housing dataset
X = df[['LSTAT']].values
y = df[['MEDV']].values

regr = LinearRegression()

#create quadratic and cubic features
quadratic = PolynomialFeatures(degree = 2)
cubic = PolynomialFeatures(degree = 3)
X_quad = quadratic.fit_transform(X)
X_cubic = cubic.fit_transform(X)

#fit features
X_fit = np.arange(X.min(), X.max(),1 )[:,np.newaxis]

#linear
regr = regr.fit(X, y)
y_lin_fit = regr.predict(X_fit)
linear_r2 = r2_score(y, regr.predict(X))

#quadratic
regr = regr.fit(X_quad, y)
y_quad_fit = regr.predict(quadratic.fit_transform(X_fit))
quadratic_r2 = r2_score(y, regr.predict(X_quad))

#cubic
regr = regr.fit(X_cubic, y)
y_cubic_fit = regr.predict(cubic.fit_transform(X_fit))
cubic_r2 = r2_score(y, regr.predict(X_cubic))

# plot results
plt.scatter(X, y, label='training points', color='lightgray')

plt.plot(X_fit, y_lin_fit, 
         label='linear (d=1), $R^2=%.2f$' % linear_r2, 
         color='blue', 
         lw=2, 
         linestyle=':')

plt.plot(X_fit, y_quad_fit, 
         label='quadratic (d=2), $R^2=%.2f$' % quadratic_r2,
         color='red', 
         lw=2,
         linestyle='-')

plt.plot(X_fit, y_cubic_fit, 
         label='cubic (d=3), $R^2=%.2f$' % cubic_r2,
         color='green', 
         lw=2, 
         linestyle='--')

plt.xlabel('% lower status of the population [LSTAT]')
plt.ylabel('Price in $1000s [MEDV]')
plt.legend(loc='upper right')
plt.show()

圖中可以看出三項式模型明顯優於二項式和線性模型，但是三項式加大了模型的複雜度，容易導致過擬合。

在很多非線性問題中，可以考慮下log轉換，將非線性問題變為線性問題。

在剛剛的問題中測試下log轉換~~~

# log
#transform features
X_log = np.log(X)
y_sqrt = np.sqrt(y)

#fit features
X_fit = np.arange(X_log.min()-1, X_log.max()+1, 1)[:, np.newaxis]

#regr
regr = regr.fit(X_log, y_sqrt)
y_log_fit = regr.predict(X_fit)
linear_r2 = r2_score(y_sqrt, regr.predict(X_log))

# plot results
plt.scatter(X_log, y_sqrt, label='training points', color='lightgray')

plt.plot(X_fit, y_log_fit, 
         label='linear (d=1), $R^2=%.2f$' % linear_r2, 
         color='blue', 
         lw=2)

plt.xlabel('log(% lower status of the population [LSTAT])')
plt.ylabel('$\sqrt{Price \; in \; \$1000s \; [MEDV]}$')
plt.legend(loc='lower left')

plt.tight_layout()
#plt.savefig('images/10_12.png', dpi=300)
plt.show()

= 0.69,比前文的三個迴歸模型都要精確啊~~~

迴歸分析（三）——多項式迴歸解決非線性問題

【將線性迴歸模型轉換為曲線——多項式迴歸】之前都是將解釋變數和目標值之間的關係假設為線性的，如果假設不成立，可以新增多項式選項，轉換為多項式迴歸。【sklearn實現多項式迴歸】1、PoltnomialFeatures實現二項迴歸# quadratic 二項迴歸 from

深入理解線性迴歸演算法（三）：淺談貝葉斯線性迴歸

前言上文介紹了正則化項與貝葉斯的關係，正則化項對應於貝葉斯的先驗分佈，因此通過設定引數的先驗分佈來調節正則化項。本文首先介紹了貝葉斯線性迴歸的相關性質，和正則化引數λ的作用，然後簡單介紹了貝葉斯思想的模型比較，最後總結全文。目錄 1、後驗引數分佈和預測變數分

機器學習筆記（三）Logistic迴歸模型

Logistic迴歸模型 1. 模型簡介：線性迴歸往往並不能很好地解決分類問題，所以我們引出Logistic迴歸演算法，演算法的輸出值或者說預測值一直介於0和1，雖然演算法的名字有“迴歸”二字，但實際上Logistic迴歸是一種分類演算法（classification y = 0 or 1）。 Log

機器學習之迴歸（2）多項式迴歸

# -*- coding: utf-8 -*- """ Created on Sun Apr 15 19:13:58 2018 @author: Administrator """ import matplotlib.pyplot as plt import numpy as np from skl

NG機器學習總結-（三）線性迴歸以及python實現

在前面已經簡單介紹了迴歸問題（預測房價），其實在統計學中，線性迴歸（Linear Regression）是利用被稱為線性迴歸方程的最小平方函式（Cost Function）對一個或多個自變數和因變數之間關係進行建模的一種迴歸分析。這種函式式一個或多個被稱為迴歸係數的模型引數的

python 二元Logistics Regression 迴歸分析（LogisticRegression）

綱要 boss說增加專案平臺分析方法： T檢驗（獨立樣本T檢驗）、線性迴歸、二元Logistics迴歸、因子分析、可靠性分析根本不懂，一臉懵逼狀態，分析部確實有人才，反正我是一臉懵首先解釋什麼是二元Logistic迴歸分析吧二元Logistics迴歸可以用來做分類，迴歸更多的是用於

ICA與雙迴歸分析（Dual_Regression）

簡單來講，雙迴歸分析是ICA的一個延伸分析，旨在將ICA的組成分結果映射回單個樣本中，從而計算其組差異。許多針對大腦的功能影像資料研究的文章採用過這種方法，在此不贅述。下面進入實現部分：一. 軟體準備 1.Linux系統 2.FSL：http

pytorch 深度學習入門程式碼（二）多項式迴歸程式碼實現

"""多項式迴歸程式碼實現""" import torch from torch.autograd import Variable import torch.nn as nn import torch.optim as optim import matplot

模塊分析（三）

1.7 space 後置狀態你在處理節點要點不同做設計很重要一點就是要考慮匹配設計，就是你的設計一定要有一個意識，就是要回歸原始狀態；也可以稱之為閉環誰急，而且是小地方的閉環，以及異常情況的閉環；比如傳輸你在一個地方加密，解密一般都會考慮到；但是如果是壓縮，邏

JStorm與Storm源碼分析（三）--Scheduler，調度器

系統負責 bad 二維碼 sting storm return prepare end Scheduler作為Storm的調度器,負責為Topology分配可用資源。 Storm提供了IScheduler接口,用戶可以通過實現該接口來自定義Scheduler。其定義如下

Ocata Neutron代碼分析（三）——oslo_service中的ServiceLauncher和ProcessLauncher（轉載）

mic return cme down ice post you tin system 1.概述 Openstack中有一個叫Launcher的概念，即專門用來啟動服務的，這個類被放在了oslo_service這個包裏面。Launcher分為兩種，一種是ServiceL

Linux入侵分析（三）清理木馬和問題用戶

入侵分析雲安全清除木馬安全加固 Linux 1.查看哪些用戶擁有/bin/bash權限 cat /etc/passwd 2.檢查常用命令是否被篡改（1）找到命令文件的路徑（whereis和which） whereis netstat which netstat which net

Android ADB 原始碼分析（三）

前言之前分析的兩篇文章 Android Adb 原始碼分析(一) 嵌入式Linux：Android root破解原理（二）寫完之後，都沒有寫到相關的實現程式碼，這篇文章寫下ADB的通訊流程的一些細節看這篇文章之前，請先閱讀 Linux的SOCKET

從零開始Rtklib解讀篇-簡單的程式設計理論和演算法及結構分析（三）

1. argc和argv argc和argv中的arg指的是"引數"，首先是一個計算提供的引數到程式，第二個是對字串陣列的指標 argc: 整數,用來統計你執行程式時送給main函式的命令列引數的個數 * argv[ ]: 字串陣列，用來存放指向你

Flume NG原始碼分析（三）使用Event介面表示資料流

Flume NG有4個主要的元件： Event表示在Flume各個Agent之間傳遞的資料流 Source表示從外部源接收Event資料流，然後傳遞給Channel Channel表示對從Source傳遞的Event資料流的臨時儲存 Sink表示從Channel中接收儲存的Event

GCC原始碼分析（三）——中間語言

原文連結：http://blog.csdn.net/sonicling/article/details/7915301 一、前言　　很忙，很久沒更新部落格了，繼續沒寫完的gcc分析，爭取在傳說將要用C++重寫的gcc 5出來之前初略分析完。二、符號表（GENERI

數值分析（三）：C++實現線性方程組的高斯-賽德爾迭代法

線性方程組的直接解法之後，就輪到迭代解法了，直接解法針對的是低階稠密矩陣，資料量較少，而工程上有更多的是高階係數矩陣，使用迭代法效率更高，佔用的空間較小。迭代法的最基本思想就是由初始條件，比如說初始解向量隨便列舉一個，就0向量也行，然後進行迭代，k到k+1，一步一步從k=1開始去逼近真實解

zigbee 之ZStack-2.5.1a原始碼分析（三）無線資料傳送和接收

前面說過SampleApp_Init和SampleApp_ProcessEvent是我們重點關注的函式，接下來分析無線傳送和接收相關的程式碼：在SampleApp_ProcessEvent函式中： if ( events & SYS_EVENT_MSG ) { &nbs

java併發程式設計一一執行緒池原理分析（三）

合理的設定執行緒池的大小接著上一篇探討執行緒留下的尾巴。如果合理的設定執行緒池的大小。要想合理的配置執行緒池的大小、首先得分析任務的特性，可以從以下幾個角度分析： 1、任務的性質：CPU密集型任務、IO密集型任務、混合型任務等； 2、任務的優先順序：高、中、低； 3、任務的執行時

SpringBoot之HandlerInterceptor攔截器的使用 ——（三）獲取requestBody解決java.io.IOException: Stream closed

現在開發的專案是基於SpringBoot的maven專案，攔截器的使用很多時候是必不可少的，當有需要需要你對body中的值進行校驗，例如加密驗籤、防重複提交、內容校驗等等。當你開開心心的在攔截器中通過request.getInputStream();獲取到body中的資訊後，你會發現

迴歸分析（三）——多項式迴歸解決非線性問題

相關推薦