Python 線性迴歸分析以及評價指標

阿新 • • 發佈：2019-02-18

"""
# 利用 diabetes資料集來學習線性迴歸  
# diabetes 是一個關於糖尿病的資料集， 該資料集包括442個病人的生理資料及一年以後的病情發展情況。   
# 資料集中的特徵值總共10項, 如下:  
    # 年齡  
    # 性別  
    #體質指數  
    #血壓  
    #s1,s2,s3,s4,s4,s6  (六種血清的化驗資料)  
    #但請注意，以上的資料是經過特殊處理， 10個數據中的每個都做了均值中心化處理，然後又用標準差乘以個體數量調整了數值範圍。
    #驗證就會發現任何一列的所有數值平方和為1.   

"""

import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

# Load the diabetes dataset
diabetes = datasets.load_diabetes()  

# Use only one feature  
# 增加一個維度，得到一個體質指數陣列[[1],[2],...[442]]
diabetes_X = diabetes.data[:, np.newaxis,2]
print(diabetes_X)

# Split the data into training/testing sets
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]

# Split the targets into training/testing sets
diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]

# Create linear regression object
regr = linear_model.LinearRegression()

# Train the model using the training sets
regr.fit(diabetes_X_train, diabetes_y_train)

# Make predictions using the testing set
diabetes_y_pred = regr.predict(diabetes_X_test)

# The coefficients  
# 檢視相關係數 
print('Coefficients: \n', regr.coef_)


# The mean squared error  
# 均方差
# 檢視殘差平方的均值(mean square error,MSE) 
print("Mean squared error: %.2f"
      % mean_squared_error(diabetes_y_test, diabetes_y_pred))


# Explained variance score: 1 is perfect prediction 
#  R2 決定係數（擬合優度）
# 模型越好：r2→1
# 模型越差：r2→0
print('Variance score: %.2f' % r2_score(diabetes_y_test, diabetes_y_pred))


# Plot outputs
plt.scatter(diabetes_X_test, diabetes_y_test,  color='black')
plt.plot(diabetes_X_test, diabetes_y_pred, color='blue', linewidth=3)

plt.xticks(())
plt.yticks(())

plt.show()

對於迴歸模型效果的判斷指標經過了幾個過程，從SSE到R-square再到Ajusted R-square, 是一個完善的過程：

SSE(誤差平方和)：The sum of squares due to error

R-square(決定係數)：Coefficient of determination

Adjusted R-square：Degree-of-freedom adjusted coefficient of determination

下面我對以上幾個名詞進行詳細的解釋下，相信能給大家帶來一定的幫助！！

一、SSE(誤差平方和)

計算公式如下：

同樣的資料集的情況下，SSE越小，誤差越小，模型效果越好
缺點：

SSE數值大小本身沒有意義，隨著樣本增加，SSE必然增加，也就是說，不同的資料集的情況下，SSE比較沒有意義

二、R-square(決定係數)

數學理解： 分母理解為原始資料的離散程度，分子為預測資料和原始資料的誤差，二者相除可以消除原始資料離散程度的影響
其實“決定係數”是通過資料的變化來表徵一個擬合的好壞。
理論上取值範圍（-∞，1], 正常取值範圍為[0 1] ------實際操作中通常會選擇擬合較好的曲線計算R²，因此很少出現-∞

越接近1，表明方程的變數對y的解釋能力越強，這個模型對資料擬合的也較好

越接近0，表明模型擬合的越差

經驗值：>0.4，擬合效果好

缺點：

資料集的樣本越大，R²越大，因此，不同資料集的模型結果比較會有一定的誤差

三、Adjusted R-Square (校正決定係數）

n為樣本數量，p為特徵數量

消除了樣本數量和特徵數量的影響

Python 線性迴歸分析以及評價指標

""" # 利用 diabetes資料集來學習線性迴歸 # diabetes 是一個關於糖尿病的資料集，該資料集包括442個病人的生理資料及一年以後的病情發展情況。 # 資料集中的特徵值總共10項, 如下: # 年齡 # 性別

《用Python玩轉資料》專案—線性迴歸分析入門之波士頓房價預測（二）

接上一部分，此篇將用tensorflow建立神經網路，對波士頓房價資料進行簡單建模預測。二、使用tensorflow擬合boston房價datasets 1、資料處理依然利用sklearn來分訓練集和測試集。 2、使用一層隱藏層的簡單網路，試下來用當前這組超引數收斂較快，準確率也可以。 3、啟用函式

SVR，時間序列分析的評價指標，python資料標準化

知識點 SVR 參考支援向量機(SVM)是一種分類演算法，但是也可以做迴歸，根據輸入的資料不同可做不同的模型（若輸入標籤為連續值則做迴歸，若輸入標籤為分類值則用SVC做分類）對於SVM演算法，我們首先匯入sklearn.svm中的

[Python] 一元線性迴歸分析例項

本文通過一個簡單的例子：預測房價，來探討怎麼用python做一元線性迴歸分析。 1. 預測房價房價是一個很火的話題，現在我們拿到一組資料，是房子的大小（平方英尺）和房價（美元）之間的對應關係，如下（csv資料檔案）： No,square_feet,p

多元線性迴歸分析-Python&SPSS

原始資料在這裡1.觀察資料首先，用Pandas開啟資料，並進行觀察。import numpy import pandas as pd import matplotlib.pyplot as plt %matplotlib inline data = pd.read_csv

Bobo老師機器學習筆記第五課-線性迴歸演算法的評估指標

評價線性迴歸的指標有四種，均方誤差（Mean Squared Error）、均方根誤差（Root Mean Squared Error）、平均絕對值誤差（Mean Absolute Error）以及R Squared方法。 sklearnz中使用的，也是大家推薦的方法是R Squared方法。

python 線性迴歸預測示例

資料集為簡單的表格，包括：年份，GDP，全社會用電量三列資料。 #預測 def predict(data,LinearRegression): Y_pred = LinearRegression.predict(data) print(Y_pred)

Python線性迴歸模型原理及其應用

前言最近有在學習網易雲課堂上《吳恩達機器學習》這門課程, 受益匪淺, 然後打算將有關線性迴歸模型的知識點總結下來, 也就有了本文. 若存在錯誤的地方, 還請指正, 謝謝! 目錄 1. 一元線性迴歸 2. 多元線性迴歸 3. 兩大演算法優缺點 4. 演算法優化問題 5. 多元線性迴歸應用正文

多元線性迴歸分析練習題

表 11.2 資料 python程式碼 import pandas as pd import statsmodels.api as sm ex922 = pd.read_csv('D:ex922.csv',encoding='gbk') values = ['人口數量X1','蔬菜價

Python線性迴歸簡單例子

公式1 公式2 # -*- coding: utf-8 -*- import numpy as np import pylab def comput(x,y,time,rate): b = 0.0 m = 0.0 n = float(len

機器學習筆記之四——線性迴歸原理以及推導

一元線性迴歸：對於樣本[(x1,y1),(x2,y2),……(xn,yn)]，xi為特徵，yi為標籤。(字幕i代表下標) 假定y與x有：

【機器學習演算法】基於R語言的多元線性迴歸分析

多元線性迴歸的適用條件：（1）自變數對應變數的變化具有顯著影響（2）自變數與應變數間的線性相關必須是真實的，而非形式上的（3）自變數之間需有一定的互斥性（4）應具有完整的統計資料訓練資料：csv格式，含有19維特徵資料下載地址：http://pan.baidu

利用R進行多元線性迴歸分析

對於一個因變數y，n個自變數x1,...,xn，要如何判斷y與這n個自變數之間是否存線上性關係呢？肯定是要利用他們的資料集，假設資料集中有m個樣本，那麼，每個樣本都分別對應著一個因變數和一個n維的自變

python線性迴歸模型之LinearRegression，Ridge，Lasso，ElasticNet模型

執行環境：win10 64位 py 3.6 pycharm 2018.1.1 import matplotlib.pyplot as plt import numpy as np from skl

python 線性迴歸預測資料

忙碌的一週將至尾聲本週嘗試線性迴歸預測房價假設方程式 y=kx+b 資料集：程式碼如下： import matplotlib.pyplot as plt import numpy as np import pandas as pd fr

Python實現迴歸演算法的衡量指標計算：MSE/RMSE/MAE/R^2

在本文中，通過Python實現MSE/RMSE/MAE/R^2的計算，而非簡單呼叫sklearn.metrics中的方法。先簡單介紹各衡量指標公式和意義：1.MSE（均方誤差）：2.RMSE（均方根誤差）：3.MAE(平均絕對誤差)：以上1-3衡量指標，根據不同業務，會有不同

簡單線性迴歸分析【筆記】

簡單線性迴歸分析目錄 1. 摘要 / 引言迴歸分析是統計學的核心，是一個廣義概念，通常指用一個或多個自變數（也成解釋變數、預測變數）來預測應變數（也稱因變數、校變數或結果變數）。簡單線性迴歸只包括一個應變數和一個自變數。這種迴歸也稱一元線

#使用SAS進行變數篩選、模型診斷、多元線性迴歸分析 #

　轉載，太經典了，學習了第一節　多元線性迴歸分析的概述　　迴歸分析中所涉及的變數常分為自變數與因變數。當因變數是非時間的連續性變數(自變數可包括連續性的和離散性的)時，欲研究變數之間的依存關係,多元線性迴歸分析是一個有力的研究工具。　　多元迴歸

R中logistics迴歸分析以及K-CV

K倍交叉驗證是對模型的效能進行評估，可以用來防止過擬合，比如對決策樹節點數目的確定或是迴歸模型引數個數地決定等情況。 1.對於一些特殊資料來說，在呼叫glm()方法時候，會出現兩種常見錯誤 Warning: glm.fit: algorithm did no

LDA(線性判別式分析)以及與PCA降維之間的區別

reference: http://blog.csdn.net/warmyellow/article/details/5454943 首先說一下協方差矩陣，之前大家肯定都學過，忘了的可以稍微看一眼： LDA是多個類的之前的判別，一個類之間的資料我們可以用方差或者標準差

Python 線性迴歸分析以及評價指標

相關推薦