python資料探勘筆記】十八.線性迴歸及多項式迴歸分析四個案例分享

阿新 • • 發佈：2019-01-06

python資料探勘課程】十八.線性迴歸及多項式迴歸分析四個案例分享 
#2018-03-30 18:24:56 March Friday the 13 week, the 089 day SZ SSMR
 1.線性迴歸預測Pizza價格案例
    2.線性迴歸分析波士頓房價案例
    3.隨機資料集一元線性迴歸分析和三維迴歸分析案例
    4.Pizza資料集一元線性迴歸和多元線性迴歸分析


一. 線性迴歸預測Pizza價格案例
1.資料集介紹

本章主要使用線性迴歸預測Pizza的價格，由於直徑大小不同的Pizza，其價格也是不同的
2.線性迴歸分析

線性迴歸基礎步驟主要包括：
    1.匯入資料集，採用列表的形式定義直接和價格兩列資料。
    2.呼叫Scikit-learn機器學習包中線性迴歸模型。
    3.呼叫fit()函式對直徑和價格進行訓練。
    4.呼叫predice()函式對資料集進行預測。
    5.對線性迴歸演算法進行評價。
    6.視覺化分析並繪製相關圖形，直觀的呈現演算法模型的結果。
線性迴歸分析的完整程式碼如下：
# -*- coding: utf-8 -*-
from sklearn.linear_model import LinearRegression

#資料集 直徑、價格
x = [[5],[6],[7],[8],[10],[11],[13],[14],[16],[18]]
y = [[6],[7.5],[8.6],[9],[12],[13.6],[15.8],[18.5],[19.2],[20]]

clf = LinearRegression()
clf.fit(x,y)                #fit()函式用來分析模型引數
pre = clf.predict([12][0])  #predict()通過fit()算出模型引數構成的模型，對解釋變數進行預測獲得其結果
print(u'預測直徑為12英寸的價格: $%.2f' % pre)

3.視覺化分析

接下來需要對資料集進行視覺化分析，首先需要呼叫Matplotlib擴充套件包繪製直徑和價格的散點圖，程式碼如下：
# -*- coding: utf-8 -*-
from sklearn.linear_model import LinearRegression

#資料集 直徑、價格
x = [[5],[6],[7],[8],[10],[11],[13],[14],[16],[18]]
y = [[6],[7.5],[8.6],[9],[12],[13.6],[15.8],[18.5],[19.2],[20]]

clf = LinearRegression()
clf.fit(x,y)                #fit()函式用來分析模型引數
pre = clf.predict([12][0])  #predict()通過fit()算出模型引數構成的模型，對解釋變數進行預測獲得其結果
print(u'預測直徑為12英寸的價格: $%.2f' % pre)

x2 = [[0],[12],[15],[25]]
y2 = clf.predict(x2)
print(y2)
import matplotlib.pyplot as plt
plt.figure()
plt.rcParams['font.sans-serif'] = ['SimHei'] #指定預設字型
plt.title(u"線性迴歸預測Pizza直徑和價格")
plt.xlabel(u"x")
plt.ylabel(u"price")
plt.axis([0,25,0,25])
plt.scatter(x,y,marker="s",s=20) #畫散點圖
plt.plot(x2,y2,"g-") #畫直線
plt.show()

二. 線性迴歸分析波士頓房價案例
Sklearn機器學習包中已經自帶了該資料集，故直接引用該資料集，獲取其中某兩列資料.



在做資料分析過程中，通常需要將資料集劃分為訓練集和預測集，這裡作者將前406行作為訓練集，最後100行作為預測集，劃分程式碼如下：
# -*- coding: utf-8 -*-
#匯入資料集boston
from sklearn.datasets import load_boston
import numpy as np 
boston = load_boston()    
print(boston.data.shape, boston.target.shape)
print (boston.data[10])
print ("boston.data is :",len(boston.data))

print (boston.target)
print ("boston.target is:",len(boston.target))


#劃分資料集
boston_temp = boston.data[:, np.newaxis, 5]   
x_train = boston_temp[:-100]      #訓練樣本  
x_test = boston_temp[-100:]       #測試樣本 後100行  
y_train = boston.target[:-100]    #訓練標記  
y_test = boston.target[-100:]     #預測對比標記


2.線性迴歸分析
線性迴歸過程主要如下：
    1.匯入資料集，波士頓房價資料。
    2.劃分資料集為訓練集和測試集，採用406和100的比例。
    3.匯入線性迴歸模型LinearRegression。
    4.對訓練集進行訓練操作，同時預測資料集結果。
    5.視覺化畫圖分析及結果評估。

線性迴歸分析波士頓房價資料集的程式碼如下：
# -*- coding: utf-8 -*-
#匯入資料集boston
from sklearn.datasets import load_boston
import numpy as np 
boston = load_boston()    
print(boston.data.shape, boston.target.shape)
print (boston.data[10])
print ("boston.data is :",len(boston.data))

#print (boston.target)
print ("boston.target is:",len(boston.target))
#劃分資料集
boston_temp = boston.data[:, np.newaxis, 5]   
x_train = boston_temp[:-100]      #訓練樣本  
x_test = boston_temp[-100:]       #測試樣本 後100行  
y_train = boston.target[:-100]    #訓練標記  
y_test = boston.target[-100:]     #預測對比標記

from sklearn.linear_model import LinearRegression 
clf = LinearRegression()  
clf.fit(x_train, y_train)  

#演算法評估
pre = clf.predict(x_test)
print (u"預測結果", pre)
print (u"真實結果", y_test)
cost = np.mean(y_test-pre)**2  
print (u'平方和計算:', cost)  
print (u'係數', clf.coef_   )
print (u'截距', clf.intercept_)    
print (u'方差', clf.score(x_test, y_test) )

#繪圖分析
import matplotlib.pyplot  as plt
plt.title(u'LinearRegression Boston')     
plt.xlabel(u'x')                   
plt.ylabel(u'price')          
plt.scatter(x_test, y_test, color = 'black')  
plt.plot(x_test, clf.predict(x_test), color='blue', linewidth = 3)
'''
for idx, m in enumerate(x_test):  
    plt.plot([m, m],[y_test[idx],pre[idx]], 'r-')    
    '''
plt.show()   

三. 隨機資料集線性迴歸分析和三維迴歸分析案例


1.隨機資料集
隨機數生成主要呼叫Numpy擴充套件包中的random函式或arange，呼叫函式arange(0,50,0.2)實現，隨機生成0到50個數據，其間隔為0.2。
得到X資料集之後，作者隨機定義一個函式繪製對應的Y座標，再呼叫Matplotlib擴充套件包可以對資料集進行視覺化分析，並繪製相關的散點圖。核心程式碼如下：
import numpy as np
import math
X =  np.arange(0,50,0.2) 
print (X)
xArr = []
yArr = []
for n in X:
    xArr.append(n)
    y = 0.7*n + np.random.uniform(0,1)*math.sin(n)*2 - 3
    yArr.append(y)

import matplotlib.pyplot as plt
plt.plot(xArr, yArr, 'go')

plt.show()

接下來需要呼叫Sklearn機器學習擴充套件包相關函式進行線性迴歸分析。

2.線性迴歸
完整程式碼如下：
import numpy as np
import math
X =  np.arange(0,50,0.2) 
print (X)
xArr = []
yArr = []
for n in X:
    xArr.append(n)
    y = 0.7*n + np.random.uniform(0,1)*math.sin(n)*2 - 3
    yArr.append(y)
'''
import matplotlib.pyplot as plt
plt.plot(xArr, yArr, '*')

plt.show()
'''


#線性迴歸分析
from sklearn.linear_model import LinearRegression
clf = LinearRegression()
print (clf)
X =  np.array(X).reshape((len(X),1))     #list列表轉化為陣列
print('X is:',X)
yArr = np.array(yArr).reshape((len(X),1))
clf.fit(X,yArr) #輸入為陣列
pre = clf.predict(X)

import matplotlib.pyplot as plt
plt.plot(X, yArr, 'go')
plt.plot(X, pre, 'r', linewidth=3)
plt.show()

補充一段3D繪製的程式碼，隨機座標生成後，需要呼叫mpl_toolkits.mplot3d子類中Axes3D類生成對應的3D圖形。
程式碼：
# -*- coding: utf-8 -*-
import numpy as np
from sklearn import linear_model
from mpl_toolkits.mplot3d import Axes3D   #3D畫圖模組
import matplotlib.pyplot as plt
import math

#linspace:開始值、終值和元素個數建立表示等差數列的一維陣列
xx, yy = np.meshgrid(np.linspace(0,10,20), np.linspace(0,100,20))
print("np.linspace(0,10,20 is :",np.linspace(0,10,20))   #列表就是方括號裡面有很多空格分開的資料，陣列就是方括號中有很多方括號包含著的資料
zz = 2.4 * xx + 4.5 * yy + np.random.randint(0,100,(20,20))
#構建成特徵、值的形式
X, Z = np.column_stack((xx.flatten(),yy.flatten())), zz.flatten()
print("xx.flatten() is:",xx.flatten())
#線性迴歸分析
regr = linear_model.LinearRegression()
regr.fit(X, Z)
#預測的一個特徵
x_test = np.array([[15.7, 91.6]])
print (regr.predict(x_test))
#畫圖視覺化分析
fig = plt.figure()
ax = fig.gca(projection='3d')
ax.scatter(xx, yy, zz) #真實點
#擬合的平面
ax.plot_wireframe(xx, yy, regr.predict(X).reshape(20,20))
ax.plot_surface(xx, yy, regr.predict(X).reshape(20,20), alpha=0.3)
plt.show()


四. Pizza資料集一元和多元線性迴歸分析
from sklearn.linear_model import LinearRegression

#資料集 直徑、價格
x = [[5],[6],[7],[8],[10],[11],[13],[14],[16],[18]]
y = [[6],[7.5],[8.6],[9],[12],[13.6],[15.8],[18.5],[19.2],[20]]


clf = LinearRegression()
clf.fit(x,y)
pre = clf.predict([12])[0]
print(u'預測直徑為12英寸的價格: $%.2f' % pre)
x2 = [[0],[12],[15],[25]]
y2 = clf.predict(x2)

import matplotlib.pyplot as plt
import numpy as np

plt.figure()
plt.axis([0,25,0,25])
plt.scatter(x,y,marker="s",s=20)
plt.plot(x2,y2,"g-")

#匯入多項式迴歸模型
from sklearn.preprocessing import PolynomialFeatures
xx = np.linspace(0,25,100) #0到25等差數列
quadratic_featurizer = PolynomialFeatures(degree = 2) #例項化一個二次多項式
x_train_quadratic = quadratic_featurizer.fit_transform(x) #用二次多項式多樣本x做變換
X_test_quadratic = quadratic_featurizer.transform(x2)
regressor_quadratic = LinearRegression()
regressor_quadratic.fit(x_train_quadratic, y)
xx_quadratic = quadratic_featurizer.transform(xx.reshape(xx.shape[0], 1))# 把訓練好X值的多項式特徵例項應用到一系列點上,形成矩陣

plt.plot(xx, regressor_quadratic.predict(xx_quadratic),
         label="$y = ax^2 + bx + c$",linewidth=2,color="r")
plt.legend()
plt.show()

python資料探勘筆記】十八.線性迴歸及多項式迴歸分析四個案例分享

python資料探勘課程】十八.線性迴歸及多項式迴歸分析四個案例分享 #2018-03-30 18:24:56 March Friday the 13 week, the 089 day SZ SSMR 1.線性迴歸預測Pizza價格案例 2.線性迴歸分析波士頓房

【python資料探勘課程】十八.線性迴歸及多項式迴歸分析四個案例分享

這是《Python資料探勘課程》系列文章，也是我這學期大資料金融學院上課的部分內容。本文主要講述和分享線性迴歸作業中，學生們做得比較好的四個案例，經過我修改後供大家學習，內容包括： 1.線性迴歸預測Pizza價格案例 2.線性迴歸分析波士頓房價案例 3.隨機

【python資料探勘課程】十九.鳶尾花資料集視覺化、線性迴歸、決策樹花樣分析

這是《Python資料探勘課程》系列文章，也是我這學期上課的部分內容。本文主要講述鳶尾花資料集的各種分析，包括視覺化分析、線性迴歸分析、決策樹分析等，通常一個數據集是可以用於多種分析的，希望這篇文章對大

【python資料探勘課程】十.Pandas、Matplotlib、PCA繪圖實用程式碼補充

這篇文章主要是最近整理《資料探勘與分析》課程中的作品及課件過程中，收集了幾段比較好的程式碼供大家學習。同時，做資料分析到後面，除非是研究演算法創新的，否則越來越覺得資料非常重要，才是有價值的東西。後面的課程會慢慢講解Python應用在Hadoop和Spark中，以及netwo

【python資料探勘課程】十五.Matplotlib呼叫imshow()函式繪製熱圖

前面系列文章講過資料探勘的各種知識，最近在研究人類時空動力學分析和冪率定律，發現在人類興趣轉移模型中，可以通過熱圖（斑圖）來進行描述的興趣轉移，如下圖所示。下一篇文章將簡單普及人類動力學相關知識研究。這

【python資料探勘課程】十二.Pandas、Matplotlib結合SQL語句對比圖分析

一. 直方圖四圖對比資料庫如下所示，包括URL、作者、標題、摘要、日期、閱讀量和評論數等。執行結果如下所示，其中繪製多個圖的核心程式碼為： p1 = plt.subplot(221) plt.bar(ind, num

【python資料探勘課程】十六.邏輯迴歸LogisticRegression分析鳶尾花資料

今天是教師節，容我先感嘆下。祝天下所有老師教師節快樂，這是自己的第二個教師節，這一年來，無限感慨，有給一個人的指導，有給十幾個人講畢設，有幾十人的實驗，有上百人的課堂，也有給上千人的Python網路直播

【python資料探勘課程】十四.Scipy呼叫curve_fit實現曲線擬合

前面系列文章講過各種知識，包括繪製曲線、散點圖、冪分佈等，而如何在在散點圖一堆點中擬合一條直線，也變得非常重要。這篇文章主要講述呼叫Scipy擴充套件包的curve_fit函式實現曲線擬

【python資料探勘課程】十一.Pandas、Matplotlib結合SQL語句視覺化分析

這是非常好的一篇文章，可以認為是我做資料分析的轉折點，為什麼呢？因為這是我做資料分析第一次引入SQL語句，然後愛不釋手；結合SQL語句返回結果進行資料分析的效果真的很好，很多大神看到可能會笑話晚輩，但是如果你是資料分析的新人，那我強烈推薦，尤其是結合網路爬蟲進行資料分析的。希

【python資料探勘課程】十七.社交網路Networkx庫分析人物關係（初識篇）

這是《Python資料探勘課程》系列文章，也是我大資料金融學院上課的部分內容。本章主要講述複雜網路或社交網路基礎知識，通過Networkx擴充套件包繪製人物關係，並分析了班級學生的關係學院資訊。本篇文章為初始篇，基礎文章希望對你有所幫助，如果文章中存在錯誤或不足支援，還請海涵

【Python資料探勘課程】八.關聯規則挖掘及Apriori實現購物推薦

這篇文章主要介紹三個知識點，也是我《資料探勘與分析》課程講課的內容。 1.關聯規則挖掘概念及實現過程； 2.Apriori演算法挖掘頻繁項集； 3.Python實現關聯規則挖掘及置信度、支援度計算。一. 關聯規則挖掘概

【python資料探勘課程】二十.KNN最近鄰分類演算法分析詳解及平衡秤TXT資料集讀取

這是《Python資料探勘課程》系列文章，也是我這學期上課的部分內容及書籍的一個案例。本文主要講述KNN最近鄰分類演算法、簡單實現分析平衡秤資料集，希望這篇文章對大家有所幫助，同時提供些思路。內容包括：

【python資料探勘課程】二十一.樸素貝葉斯分類器詳解及中文文字輿情分析

這是《Python資料探勘課程》系列文章，也是我上課內容及書籍中的一個案例。本文主要講述樸素貝葉斯分類演算法並實現中文資料集的輿情分析案例，希望這篇文章對大家有所幫助，提供些思路。內容包括：1.樸素貝葉斯數學原理知識 2.naive_bayes用法及簡單案例 3.

【Python資料探勘課程】四.決策樹DTC資料分析及鳶尾資料集分析

希望這篇文章對你有所幫助，尤其是剛剛接觸資料探勘以及大資料的同學，同時準備嘗試以案例為主的方式進行講解。如果文章中存在不足或錯誤的地方，還請海涵~一. 分類及決策樹介紹1.分類分類其實是從特定的資料中挖掘模式，作出判斷的過程。比如Gmail郵箱

【Python資料探勘課程】五.線性迴歸知識及預測糖尿病例項

希望這篇文章對你有所幫助，尤其是剛剛接觸資料探勘以及大資料的同學，同時準備嘗試以案例為主的方式進行講解。如果文章中存在不足或錯誤的地方，還請海涵~ 同時這篇文章是我上課的內容，所以參考了一些知識，強烈推薦大家學習斯坦福的機器學習Ng教授課程和Sc

【Python資料探勘課程】六.Numpy、Pandas和Matplotlib包基礎知識

前面幾篇文章採用的案例的方法進行介紹的，這篇文章主要介紹Python常用的擴充套件包，同時結合資料探勘相關知識介紹該包具體的用法，主要介紹Numpy、Pandas和Matplotlib三

【Python資料探勘課程】七.PCA降維操作及subplot子圖繪製

這篇文章主要介紹四個知識點，也是我那節課講課的內容。 1.PCA降維操作； 2.Python中Sklearn的PCA擴充套件包； 3.Matplotlib的subplot函式繪製子圖； 4.通過Kmean

【Python資料探勘課程】一.安裝Python及爬蟲入門介紹

最近因為需要給大資料金融學院的學生講解《Python資料探勘及大資料分析》的課程，所以在這裡，我將結合自己的上課內容，詳細講解每個步驟。作為助教，我更希望這門課程以實戰為主，同時按小組劃分學生，每個小組最後都提交一個基於Python的資料探勘及大資料分析相關

【python資料探勘課程】邏輯迴歸LogisticRegression分析鳶尾花資料

plt.scatter(X[:50,0], X[:50,1], color='red',marker='o', label='setosa') 呼叫scatter()繪製散點圖，第一個引數為第一列資料（長度），第二個引數為第二列資料（寬度），第三、四個引數為設定點的顏色為紅色，款式為圓圈，最後標

【Python資料探勘課程】三.Kmeans聚類程式碼實現、作業及優化

這篇文章直接給出上次關於Kmeans聚類的籃球遠動員資料分析案例，同時介紹這次作業同學們完成的圖例，最後介紹Matplotlib包繪圖的優化知識。希望這篇文章對你有所幫助，尤其是剛剛接觸資料探勘以及大資料的同學，同時準備嘗試以案例為主的方式進行

python資料探勘筆記】十八.線性迴歸及多項式迴歸分析四個案例分享

相關推薦