9.機器學習sklearn-----嶺迴歸及其應用例項

阿新 • • 發佈：2019-02-08

1.基本概念

對於一般地線性迴歸問題，引數的求解採用的是最小二乘法，其目標函式如下：

引數w的求解，也可以使用如下矩陣方法進行：

對於矩陣X，若某些列線性相關性較大（即訓練樣本中某些屬性線性相關），就會導致，就會導致XTX的值接近0，在計算(XTX)-1時就會出現不穩定性：

結論：傳統的基於最小二乘的線性迴歸法缺乏穩定性。

嶺迴歸(ridge regression)是一種專用於共線性資料分析的有偏估計迴歸方法,是一種改良的最小二乘估計法，對某些資料的擬合要強於最小二乘法。

在sklearn庫中，可以使用sklearn.linear_model.Ridge呼叫嶺迴歸模型，其主要引數有：

• alpha：正則化因子，對應於損失函式中的α

• fit_intercept：表示是否計算截距，

• solver：設定計算引數的方法，可選引數‘auto’、‘svd’、‘sag’等

2.例項

資料介紹：資料為某路口的交通流量監測資料，記錄全年小時級別的車流量。

實驗目的：根據已有的資料建立多項式特徵，使用嶺迴歸模型代替一般的線性模型，對車流量的資訊進行多項式迴歸。

import numpy as np
import pandas as pd
#通過sklearn.linermodel載入嶺迴歸方法
from sklearn.linear_model import  
Ridge
from sklearn import model_selection
#載入交叉驗證模組
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
#使用numpy的方法從txt檔案中載入資料
a=pd.read_csv('data.csv')
data=np.array(a)

#使用plt展示車流量資訊
plt.plot(data[:,5])
plt.show()
#X用於儲存0-5維資料，即屬性
X=data[:,1:5]
#y用於儲存第6維資料，即車流量
y=data[:, 
5]
#用於建立最高次數6次方的的多項式特徵，多次試驗後決定採用6次
poly =PolynomialFeatures(6)
#X為建立的多項式特徵
X=poly.fit_transform(X)
#將所有資料劃分為訓練集和測試集，test_size表示測試集的比例，
#random_state是隨機數種子
train_set_X,test_set_X,train_set_y,test_set_y=\
    model_selection.train_test_split(X,y,test_size=0.3,random_state=0)

#建立迴歸器，並進行訓練
#建立嶺迴歸例項
clf =Ridge(alpha=1.0,fit_intercept=True)
#呼叫fit函式使用訓練集訓練迴歸器
clf.fit(train_set_X,train_set_y)
#利用測試集計算迴歸曲線的擬合優度，clf.score返回值為0.7375擬合優度，
# 用於評價擬合好壞，最大為1，無最小值，
#當對所有輸入都輸 出同一個值時，擬合優度為0。
clf.score(test_set_X,test_set_y)

start =200 #花一段200到300範圍內的擬合曲線
end =300
y_pre =clf.predict(X) #是呼叫predict函式的擬合值
time =np.arange(start,end)
plt.plot(time,y[start:end],'b',label="real")
plt.plot(time,y_pre[start:end],'r',label='predict')
plt.legend(loc='upper left')
plt.show()

結果：

分析結論：預測值和實際值的走勢大致相同

9.機器學習sklearn-----嶺迴歸及其應用例項

1.基本概念對於一般地線性迴歸問題，引數的求解採用的是最小二乘法，其目標函式如下：引數w的求解，也可以使用如下矩陣方法進行：對於矩陣X，若某些列線性相關性較大（即訓練樣本中某些屬性線性相關），就會導致，就會導致XTX的值接近0，在計算(XTX)-1時就會出現不穩

8.機器學習sklearn---多項式迴歸（房價與房屋尺寸關係的非線性擬合）

1.基本概念多項式迴歸(Polynomial Regression)是研究一個因變數與一個或多個自變數間多項式的迴歸分析方法。如果自變數只有一個時，稱為一元多項式迴歸；如果自變數有多個時，稱為多元多項式迴歸。 1.在一元迴歸分析中，如果依變數y與自變數x的關

機器學習-建立嶺迴歸器

線性迴歸的主要問題是對異常值敏感。在真實世界的資料收集過程中，經常會遇到錯誤的度量結果。而線性迴歸使用的是普通最小二乘法，其目標是使平方誤差最小化。這時，由於異常誤差的絕對值很大，因此破壞整個模型。普通最小二乘法在建模的時候會考慮每個資料點的影響，為了避免這個問題，我們引入

簡單易學的機器學習演算法——嶺迴歸(Ridge Regression)

一、一般線性迴歸遇到的問題在處理複雜的資料的迴歸問題時，普通的線性迴歸會遇到一些問題，主要表現在：預測精度：這裡要處理好這樣一對為題，即樣本的數量和特徵的數量時，最小二乘迴歸會有較小的

7.機器學習sklearn-------線性迴歸（房價與房屋尺寸關係的線性擬合）

1.基本概念線性迴歸(Linear Regression)是利用數理統計中迴歸分析，來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。線性迴歸利用稱為線性迴歸方程的最小平方函式對一個或多個自變數和因變數之間關係進行建模。這種函式是一個或多個稱為回歸係數的

機器學習之嶺迴歸

看機器學習實戰接觸到這部分，所以總結一下。嶺迴歸應對的是普通的線性迴歸中，矩陣不可逆情況。例如，特徵值過多，而樣本量不夠。回顧一下線性迴歸：迴歸分析中常用的最小二乘法是一種無偏估計。對於一個

機器學習：線性迴歸、嶺迴歸、Lasso迴歸

轉載自：https://blog.csdn.net/hzw19920329/article/details/77200475 線性迴歸作為一種迴歸分析技術，其分析的因變數屬於連續型變數，如果因變數轉變為離散型變數，將轉換為分類問題。迴歸分析屬於有監督學習問題，本部落格將重點回

機器學習演算法：迴歸分析與工程應用

一、線性迴歸 1.1 定義與定義引入（一）什麼是線性迴歸呢？有監督學習輸出/預測的結果yi為連續值變數需要學習對映f：x->y 假定輸入x和輸出y之間有線性相關關係（二）舉一個例子（單一變數）：（三）多變數的情況

機器學習之線性迴歸原理及sklearn實現

1、線性迴歸問題以房價預測為例，佔地面積為變數x1，房屋年齡為變數x2，房屋價格為預測變數y。為什麼叫線性迴歸問題，因為目標函式是一個線性迴歸函式。什麼是目標函式？（1）、目標函式：目標函式是我們需要的最終結果，及

機器學習：線性迴歸和嶺迴歸入門程式碼

機器學習中運用python進行對房子價格的預測程式碼，資料庫直接使用sklearn自帶的boston，使用三種方法進行預測，分別是：線性迴歸直接預測、梯度下降預測、嶺迴歸預測 from sklearn.datasets import load_boston fr

人工智慧之機器學習與深度學習-9機器學習的應用葉梓老師

機器學習應用 •分類或預測趨勢：自動在大型資料庫中尋找預測性資訊，以往需要進行大量手工分析的問題現在可以直接由資料本身得出結論。 •發現事物之間的關係：資料關聯是一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性，就稱為關聯。 •按特徵自動歸類：資料庫中的記錄可被劃分為一

sklearn機器學習之邏輯迴歸分類器

物以類聚，人以群分。是非黑白，金木水火。乾坤陰陽，寒暑燥溼。 import numpy as np import matplotlib.pyplot as plt from sklearn import linear_model #訓練資

【機器學習 sklearn】邏輯斯蒂迴歸模型--Logistics regression

執行結果： "D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/Logistics_regression.py Logistics regression [[99 1] [

機器學習sklearn多元線性迴歸

from __future__ import print_function from sklearn import datasets from sklearn.linear_model import

Python3入門機器學習--經典算法與應用|Python3機器學習

python3機器學習Python3入門機器學習--經典算法與應用網盤地址：https://pan.baidu.com/s/1JU3xUckrJ6mIFmbPZ2SE-g 密碼: b4i8備用地址（騰訊微雲）：https://share.weiyun.com/1a5b40b998601d64fb5211c21

【機器學習】--LDA初始和應用

alloc learn .get lis oca pat 文章 text 對應關系一、前述 LDA是一種非監督機器學習技術，可以用來識別大規模文檔集（document collection）或語料庫（corpus）中潛藏的主題信息。它采用了詞袋（bag of word

《機器學習理論、方法及應用》研讀(1)

性能能力角度怎樣應用環境十年外部表過程第一章機器學習概述機器學習的概念學習：可以從不同角度對學習給出解釋，但是都包含了知識獲取和能力改善這兩個主要方面。因此給學習如下一般的解釋：學習是一個有特定目的的知識獲取和能力增長過程，其內在行為是獲得知識、積累

python機器學習-sklearn挖掘乳腺癌細胞（三）

質量 mat spl tcl pytho 不同區別工具 state python機器學習-sklearn挖掘乳腺癌細胞( 博主親自錄制) 網易雲觀看地址 https://study.163.com/course/introduction.htm?courseId=10

python機器學習-sklearn挖掘乳腺癌細胞（五）

糾正 plot 不錯方法 eid right ref nump cores python機器學習-sklearn挖掘乳腺癌細胞( 博主親自錄制) 網易雲觀看地址 https://study.163.com/course/introduction.htm?courseId

機器學習筆記——線性迴歸（Linear Regression）

線性迴歸演算法 1 簡單線性迴歸（Simple Liner Regression）解決迴歸問題思想簡答，容易實現許多強大的非線性模型的基礎結果具有很好的可解釋性蘊含機器學習中的很多重要思想 1.1 什麼是線性迴歸演算法？

9.機器學習sklearn-----嶺迴歸及其應用例項

相關推薦