機器學習sklearn（77）：演算法例項（三十四）迴歸（六）線性迴歸大家族（四）多重共線性：嶺迴歸與Lasso（一）嶺迴歸

阿新 • • 發佈：2021-07-03

1 最熟悉的陌生人：多重共線性

逆矩陣存在的充分必要條件 行列式不為0的充分必要條件 矩陣滿秩的充分必要條件

2 嶺迴歸

2.1 嶺迴歸解決多重共線性問題 2.2 linear_model.Ridge

import numpy as np
import pandas as pd
from sklearn.linear_model import Ridge, LinearRegression, Lasso
from sklearn.model_selection import train_test_split as TTS
 
from sklearn.datasets import fetch_california_housing as fch
import matplotlib.pyplot as plt
housevalue = fch()
X = pd.DataFrame(housevalue.data) y = housevalue.target
X.columns = ["住戶收入中位數","房屋使用年代中位數","平均房間數目"
      ,"平均臥室數目","街區人口","平均入住率","街區的緯度","街區的經度"] X.head()
Xtrain,Xtest,Ytrain,Ytest = TTS(X,y,test_size=0.3,random_state=420) # 
資料集索引恢復
for i in [Xtrain,Xtest]:
  i.index = range(i.shape[0])
#使用嶺迴歸來進行建模
reg = Ridge(alpha=1).fit(Xtrain,Ytrain)
reg.score(Xtest,Ytest) #交叉驗證下，與線性迴歸相比，嶺迴歸的結果如何變化？
alpharange = np.arange(1,1001,100)
ridge, lr = [], []
for alpha in alpharange:
  reg = Ridge(alpha=alpha)
  linear = LinearRegression()
  regs  
= cross_val_score(reg,X,y,cv=5,scoring = "r2").mean()
  linears = cross_val_score(linear,X,y,cv=5,scoring = "r2").mean()
  ridge.append(regs)
  lr.append(linears)
plt.plot(alpharange,ridge,color="red",label="Ridge")
plt.plot(alpharange,lr,color="orange",label="LR")
plt.title("Mean")
plt.legend()
plt.show()
#細化一下學習曲線
alpharange = np.arange(1,201,10)

#模型方差如何變化？
alpharange = np.arange(1,1001,100)
ridge, lr = [], []
for alpha in alpharange:
  reg = Ridge(alpha=alpha)
  linear = LinearRegression()
  varR = cross_val_score(reg,X,y,cv=5,scoring="r2").var()
  varLR = cross_val_score(linear,X,y,cv=5,scoring="r2").var()
  ridge.append(varR)
  lr.append(varLR)
plt.plot(alpharange,ridge,color="red",label="Ridge")
plt.plot(alpharange,lr,color="orange",label="LR")
plt.title("Variance")
plt.legend()
plt.show()

from sklearn.datasets import load_boston
from sklearn.model_selection import cross_val_score
X = load_boston().data
y = load_boston().target
Xtrain,Xtest,Ytrain,Ytest = TTS(X,y,test_size=0.3,random_state=420) #先檢視方差的變化
alpharange = np.arange(1,1001,100)
ridge, lr = [], []
for alpha in alpharange:
  reg = Ridge(alpha=alpha)
  linear = LinearRegression()
  varR = cross_val_score(reg,X,y,cv=5,scoring="r2").var()
  varLR = cross_val_score(linear,X,y,cv=5,scoring="r2").var()
  ridge.append(varR)
  lr.append(varLR)
plt.plot(alpharange,ridge,color="red",label="Ridge")
plt.plot(alpharange,lr,color="orange",label="LR")
plt.title("Variance")
plt.legend()
plt.show()
#檢視R2的變化
alpharange = np.arange(1,1001,100)
ridge, lr = [], []
for alpha in alpharange:
  reg = Ridge(alpha=alpha)
  linear = LinearRegression()
  regs = cross_val_score(reg,X,y,cv=5,scoring = "r2").mean()
  linears = cross_val_score(linear,X,y,cv=5,scoring = "r2").mean()
  ridge.append(regs)
  lr.append(linears)
plt.plot(alpharange,ridge,color="red",label="Ridge")
plt.plot(alpharange,lr,color="orange",label="LR")
plt.title("Mean")
plt.legend()
plt.show()
#細化學習曲線
alpharange = np.arange(100,300,10)
ridge, lr = [], []
for alpha in alpharange:
  reg = Ridge(alpha=alpha)
  #linear = LinearRegression()
  regs = cross_val_score(reg,X,y,cv=5,scoring = "r2").mean()
  #linears = cross_val_score(linear,X,y,cv=5,scoring = "r2").mean()
  ridge.append(regs)
  lr.append(linears)
plt.plot(alpharange,ridge,color="red",label="Ridge")
#plt.plot(alpharange,lr,color="orange",label="LR")
plt.title("Mean")
plt.legend()
plt.show()

2.3 選取最佳的正則化引數取值

import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model
#創造10*10的希爾伯特矩陣
X = 1. / (np.arange(1, 11) + np.arange(0, 10)[:, np.newaxis])
y = np.ones(10) #計算橫座標
n_alphas = 200
alphas = np.logspace(-10, -2, n_alphas) #建模，獲取每一個正則化取值下的係數組合
coefs = []
for a in alphas:
  ridge = linear_model.Ridge(alpha=a, fit_intercept=False)
  ridge.fit(X, y)
  coefs.append(ridge.coef_) #繪圖展示結果
ax = plt.gca()
ax.plot(alphas, coefs)
ax.set_xscale('log')
ax.set_xlim(ax.get_xlim()[::-1]) #將橫座標逆轉
plt.xlabel('正則化引數alpha')
plt.ylabel('係數w')
plt.title('嶺迴歸下的嶺跡圖')
plt.axis('tight')
plt.show()

這個類的使用也非常容易，依然使用我們之前建立的加利佛尼亞房屋價值資料集：

import numpy as np
import pandas as pd
from sklearn.linear_model import RidgeCV, LinearRegression
from sklearn.model_selection import train_test_split as TTS
from sklearn.datasets import fetch_california_housing as fch
import matplotlib.pyplot as plt
housevalue = fch()
X = pd.DataFrame(housevalue.data) y = housevalue.target
X.columns = ["住戶收入中位數","房屋使用年代中位數","平均房間數目"
      ,"平均臥室數目","街區人口","平均入住率","街區的緯度","街區的經度"]
Ridge_ = RidgeCV(alphas=np.arange(1,1001,100)
        #,scoring="neg_mean_squared_error"
         ,store_cv_values=True
        #,cv=5
        ).fit(X, y)
#無關交叉驗證的嶺迴歸結果
Ridge_.score(X,y) #呼叫所有交叉驗證的結果
Ridge_.cv_values_.shape
#進行平均後可以檢視每個正則化係數取值下的交叉驗證結果
Ridge_.cv_values_.mean(axis=0) #檢視被選擇出來的最佳正則化係數
Ridge_.alpha_

機器學習sklearn（三十四）：演算法例項（三）迴歸（一）決策樹迴歸（一） DecisionTreeRegressor

classsklearn.tree.DecisionTreeRegressor(*,criterion=\'mse\',splitter=\'best\',max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max

機器學習sklearn（四十）：演算法例項（九）迴歸（二）隨機森林迴歸器 RandomForestRegressor

class sklearn.ensemble.RandomForestClassifier(n_estimators=’10’, criterion=’gini’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’,max_l

機器學習sklearn（57）：演算法例項（十四）分類（七）邏輯迴歸（二）linear_model.LogisticRegression(一) 重要引數

class sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.0001, C=1.0,fifit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’warn’, max_iter=

機器學習sklearn（58）：演算法例項（十五）分類（八）邏輯迴歸（三）linear_model.LogisticRegression(二) 重要引數

3 梯度下降：重要引數max_iter 3.1 梯度下降求解邏輯迴歸 3.2 梯度下降的概念與解惑

機器學習sklearn（75）：演算法例項（三十二）迴歸（四）線性迴歸大家族（二）多元線性迴歸LinearRegression

1 多元線性迴歸的基本原理 2 最小二乘法求解多元線性迴歸的引數 https://en.wikipedia.org/wiki/Matrix_calculus

機器學習sklearn（76）：演算法例項（三十三）迴歸（五）線性迴歸大家族（三）迴歸類的模型評估指標

0 簡介 1 是否預測了正確的數值 from sklearn.metrics import mean_squared_error as MSE MSE(yhat,Ytest) y.max()

機器學習sklearn（77）：演算法例項（三十四）迴歸（六）線性迴歸大家族（四）多重共線性：嶺迴歸與Lasso（一）嶺迴歸

1 最熟悉的陌生人：多重共線性逆矩陣存在的充分必要條件行列式不為0的充分必要條件

機器學習sklearn（78）：演算法例項（三十五）迴歸（七）線性迴歸大家族（五）多重共線性：嶺迴歸與Lasso（二）Lasso

3 Lasso 3.1 Lasso與多重共線性 3.2 Lasso的核心作用：特徵選擇 import numpy as np import pandas as pd

機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

1 概述 1.1 決策樹是如何工作的　　決策樹（Decision Tree）是一種非引數的有監督學習方法，它能夠從一系列有特徵和標籤的資料中總結出決策規則，並用樹狀圖的結構來呈現這些規則，以解決分類和迴歸問題。決策樹演

機器學習sklearn（三十七）：演算法例項（六）分類（四）分類決策樹（四）Bonus Chapter I 例項：分類樹在合成數集上的表現

我們在紅酒資料集上畫出了一棵樹，並且展示了多個引數會對樹形成這樣的影響，接下來，我們將在不同結構的資料集上測試一下決策樹的效果，讓大家更好地理解決策樹。

機器學習sklearn（三十九）：演算法例項（八）分類（四）隨機森林分類器 RandomForestRegressor

class sklearn.ensemble.RandomForestRegressor(n_estimators=’warn’, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’,max_l

機器學習sklearn（72）：演算法例項（二十九）分類（十六）SVM（七）sklearn.svm.SVC（六）使用SVC時的其他考慮（選）

1 SVC處理多分類問題：重要引數decision_function_shape 2 SVM的模型複雜度 3 SVM中的隨機性：引數random_state

機器學習sklearn（83）：演算法例項（40）分類（19）樸素貝葉斯（二）不同分佈下的貝葉斯（一）高斯樸素貝葉斯GaussianNB

1 認識高斯樸素貝葉斯 1. 展示我所使用的裝置以及各個庫的版本 %%cmd pip install watermark

機器學習sklearn（85）：演算法例項（42）分類（21）樸素貝葉斯（四）不同分佈下的貝葉斯（三）多項式樸素貝葉斯以及其變化

1 多項式樸素貝葉斯MultinomialNB 1. 匯入需要的模組和庫 from sklearn.preprocessing import MinMaxScaler

機器學習sklearn（86）：演算法例項（43）分類（22）樸素貝葉斯（五）貝葉斯分類器做文字分類

1 文字編碼技術簡介 1.1 單詞計數向量 sample = [\"Machine learning is fascinating, it is wonderful\"

機器學習Sklearn系列：（二）邏輯迴歸

本文詳細的介紹了邏輯迴歸的推導和演算法原理。邏輯迴歸可以用來做分類任務，通俗理解，就是講輸入對映到到概率區間0-1，從而實現分類功能，邏輯迴歸的公式推導如下：

機器學習Sklearn系列：（五）聚類演算法

本文詳細的介紹了幾種常見的聚類演算法。 K-means 原理首先隨機選擇k個初始點作為質心

機器學習-樸素貝葉斯分類演算法（java，判斷西瓜好壞案例）

技術標籤：機器學習java演算法概率論和高中數學都學習過貝葉斯公式來計算條件概率，A發生下B傳送的概率這種題，比較熟悉。樸素貝葉斯分類演算法或許和這個有點關係吧…

機器學習sklearn（五）：資料集處理（二）缺失值處理

6.4.Imputation of missing values For various reasons, many real world datasets contain missing values, often encoded as blanks, NaNs or other placeholders. Such datasets however are incompatible with

機器學習sklearn（五）：資料處理（二）缺失值處理

來源 https://www.cnblogs.com/B-Hanan/articles/12774433.html 1 單變數缺失 import numpy as np from sklearn.impute import SimpleImputer

機器學習sklearn（77）：演算法例項（三十四）迴歸（六）線性迴歸大家族（四）多重共線性：嶺迴歸與Lasso（一）嶺迴歸

1 最熟悉的陌生人：多重共線性

2 嶺迴歸

相關推薦