sklearn：隨機森林_迴歸樹_波士頓房價_填補缺失值

阿新 • • 發佈：2021-01-03

分類樹和迴歸樹引數差別：

criterion
- 分類：使用資訊增益，
- 迴歸：
  - 均方誤差MSE，使用均值。mse是父節點與葉子節點之間的均方誤差，用來選擇特徵。同時也是用於衡量模型質量的指標。均方誤差是正的，但是sklearn中的均方誤差是負數。
  - 絕對誤差mae，使用中值。
  - 注意：迴歸樹的介面score預設返回的是R方（負無窮到1，越接近1越好），不是mse

from sklearn.datasets import load_boston
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestRegressor

boston = load_boston()

import sklearn
sorted(sklearn.metrics.SCORERS.keys())

['accuracy',
 'adjusted_mutual_info_score',
 'adjusted_rand_score',
 'average_precision',
 'balanced_accuracy',
 'brier_score_loss',
 'completeness_score',
 'explained_variance',
 'f1',
 'f1_macro',
 'f1_micro',
 'f1_samples',
 'f1_weighted',
 'fowlkes_mallows_score',
 'homogeneity_score',
 'jaccard',
 'jaccard_macro',
 'jaccard_micro',
 'jaccard_samples',
 'jaccard_weighted',
 'max_error',
 'mutual_info_score',
 'neg_log_loss',
 'neg_mean_absolute_error',
 'neg_mean_squared_error',
 'neg_mean_squared_log_error',
 'neg_median_absolute_error',
 'normalized_mutual_info_score',
 'precision',
 'precision_macro',
 'precision_micro',
 'precision_samples',
 'precision_weighted',
 'r2',
 'recall',
 'recall_macro',
 'recall_micro',
 'recall_samples',
 'recall_weighted',
 'roc_auc',
 'v_measure_score']

regresor = RandomForestRegressor(n_estimators=100, random_state=0)
cross_val_score(regresor, boston.data, boston.target, cv=10
               , scoring="neg_mean_squared_error"  # 可以通過 sklearn.metrics.SCORERS.keys() 檢視scoring對應的引數，預設是R方
               )
# 返回10次交叉驗證的衡量指標結果

array([-10.72900447,  -5.36049859,  -4.74614178, -20.84946337,
       -12.23497347, -17.99274635,  -6.8952756 , -93.78884428,
       -29.80411702, -15.25776814])

用隨機森林迴歸填補缺失值

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score

dataset = load_boston()
dataset.data.shape

(506, 13)

x_full, y_full = dataset.data, dataset.target  # 儲存完整的資料
n_samples = x_full.shape[0]
n_features = x_full.shape[1]
n_samples, n_features

(506, 13)

# 首先確定希望放入的缺失值資料的比例。
rng = np.random.RandomState(0)
missing_rate = 0.5
n_missing_samples = int(np.floor(n_samples * n_features * missing_rate))
n_missing_samples

# 構建缺失資料

missing_features = rng.randint(0, n_features, n_missing_samples)  # 生成從0-n之間的n_missing_samples個數據
missing_samples = rng.randint(0, n_samples, n_missing_samples)

x_missing = x_full.copy()
y_missing = y_full.copy()

x_missing[missing_samples, missing_features] = np.nan
x_missing = pd.DataFrame(x_missing)
x_missing

	0	1	2	3	4	5	6	7	8	9	10	11	12
0	NaN	18.0	NaN	NaN	0.538	NaN	65.2	4.0900	1.0	296.0	NaN	NaN	4.98
1	0.02731	0.0	NaN	0.0	0.469	NaN	78.9	4.9671	2.0	NaN	NaN	396.90	9.14
2	0.02729	NaN	7.07	0.0	NaN	7.185	61.1	NaN	2.0	242.0	NaN	NaN	NaN
3	NaN	NaN	NaN	0.0	0.458	NaN	45.8	NaN	NaN	222.0	18.7	NaN	NaN
4	NaN	0.0	2.18	0.0	NaN	7.147	NaN	NaN	NaN	NaN	18.7	NaN	5.33
...	...	...	...	...	...	...	...	...	...	...	...	...	...
501	NaN	NaN	NaN	0.0	0.573	NaN	69.1	NaN	1.0	NaN	21.0	NaN	9.67
502	0.04527	0.0	11.93	0.0	0.573	6.120	76.7	2.2875	1.0	273.0	NaN	396.90	9.08
503	NaN	NaN	11.93	NaN	0.573	6.976	91.0	NaN	NaN	NaN	21.0	NaN	5.64
504	0.10959	0.0	11.93	NaN	0.573	NaN	89.3	NaN	1.0	NaN	21.0	393.45	6.48
505	0.04741	0.0	11.93	0.0	0.573	6.030	NaN	NaN	1.0	NaN	NaN	396.90	7.88

506 rows × 13 columns

from sklearn.impute import SimpleImputer  # 專門用於填補缺失值的類

# 使用均值填充
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
x_missing_mean = imp_mean.fit_transform(x_missing)
x_missing_mean = pd.DataFrame(x_missing_mean)
x_missing_mean

	0	1	2	3	4	5	6	7	8	9	10	11	12
0	3.627579	18.000000	11.163464	0.066007	0.538000	6.305921	65.2	4.090000	1.000000	296.000000	18.521192	352.741952	4.980000
1	0.027310	0.000000	11.163464	0.000000	0.469000	6.305921	78.9	4.967100	2.000000	405.935275	18.521192	396.900000	9.140000
2	0.027290	10.722951	7.070000	0.000000	0.564128	7.185000	61.1	3.856371	2.000000	242.000000	18.521192	352.741952	12.991767
3	3.627579	10.722951	11.163464	0.000000	0.458000	6.305921	45.8	3.856371	9.383871	222.000000	18.700000	352.741952	12.991767
4	3.627579	0.000000	2.180000	0.000000	0.564128	7.147000	67.4	3.856371	9.383871	405.935275	18.700000	352.741952	5.330000
...	...	...	...	...	...	...	...	...	...	...	...	...	...
501	3.627579	10.722951	11.163464	0.000000	0.573000	6.305921	69.1	3.856371	1.000000	405.935275	21.000000	352.741952	9.670000
502	0.045270	0.000000	11.930000	0.000000	0.573000	6.120000	76.7	2.287500	1.000000	273.000000	18.521192	396.900000	9.080000
503	3.627579	10.722951	11.930000	0.066007	0.573000	6.976000	91.0	3.856371	9.383871	405.935275	21.000000	352.741952	5.640000
504	0.109590	0.000000	11.930000	0.066007	0.573000	6.305921	89.3	3.856371	1.000000	405.935275	21.000000	393.450000	6.480000
505	0.047410	0.000000	11.930000	0.000000	0.573000	6.030000	67.4	3.856371	1.000000	405.935275	18.521192	396.900000	7.880000

506 rows × 13 columns

# 使用 0填充缺失值
imp_0 = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value=0)
x_missing_0 = imp_0.fit_transform(x_missing)
x_missing_0 = pd.DataFrame(x_missing_0)
x_missing_0

	0	1	2	3	4	5	6	7	8	9	10	11	12
0	0.00000	18.0	0.00	0.0	0.538	0.000	65.2	4.0900	1.0	296.0	0.0	0.00	4.98
1	0.02731	0.0	0.00	0.0	0.469	0.000	78.9	4.9671	2.0	0.0	0.0	396.90	9.14
2	0.02729	0.0	7.07	0.0	0.000	7.185	61.1	0.0000	2.0	242.0	0.0	0.00	0.00
3	0.00000	0.0	0.00	0.0	0.458	0.000	45.8	0.0000	0.0	222.0	18.7	0.00	0.00
4	0.00000	0.0	2.18	0.0	0.000	7.147	0.0	0.0000	0.0	0.0	18.7	0.00	5.33
...	...	...	...	...	...	...	...	...	...	...	...	...	...
501	0.00000	0.0	0.00	0.0	0.573	0.000	69.1	0.0000	1.0	0.0	21.0	0.00	9.67
502	0.04527	0.0	11.93	0.0	0.573	6.120	76.7	2.2875	1.0	273.0	0.0	396.90	9.08
503	0.00000	0.0	11.93	0.0	0.573	6.976	91.0	0.0000	0.0	0.0	21.0	0.00	5.64
504	0.10959	0.0	11.93	0.0	0.573	0.000	89.3	0.0000	1.0	0.0	21.0	393.45	6.48
505	0.04741	0.0	11.93	0.0	0.573	6.030	0.0	0.0000	1.0	0.0	0.0	396.90	7.88

506 rows × 13 columns

# 使用 隨機森林 填充缺失值
# 通過已有的 特徵資料 和 標籤資訊來 迴歸預測 缺失的資料
# 先填充缺失較少的特徵資料

x_missing_reg = x_missing.copy()
sortindex = np.argsort(x_missing_reg.isnull().sum(axis=0)).values  # 計算出特徵空值資料，然後排序返回對應列的索引
sortindex

array([ 6, 12,  8,  7,  9,  0,  2,  1,  5,  4,  3, 10, 11], dtype=int64)

# 遍歷，填補空值
for i in sortindex:
    df = x_missing_reg
    fillc = df.iloc[:, i]
    df = pd.concat([df.drop(i, axis=1), pd.DataFrame(y_full)], axis=1)
    
    df_0 = SimpleImputer(missing_values=np.nan
                        , strategy='constant'
                        , fill_value=0
                        ).fit_transform(df)
    
    y_train = fillc[fillc.notnull()]
    y_test = fillc[fillc.isnull()]
    x_train = df_0[y_train.index, :]
    x_test = df_0[y_test.index, :]
    
    rfc = RandomForestRegressor(n_estimators=100)
    rfc = rfc.fit(x_train, y_train)
    y_predict = rfc.predict(x_test)
    
    x_missing_reg.loc[x_missing_reg.loc[:, i].isnull(), i] = y_predict

# 對填補好的資料進行建模

X = [x_full, x_missing_mean, x_missing_0, x_missing_reg]

mse = []
std = []
for x in X:
    estimator = RandomForestRegressor(random_state=0, n_estimators=100)
    scores = cross_val_score(estimator, x, y_full, scoring='neg_mean_squared_error', cv=5).mean()
    mse.append(scores * -1)

# 用所得的結果畫出條形圖

x_labels = ['Full data'
            , 'Zero Imputation'
            , 'Mean Imputation'
            , 'Regressor Imputation'
           ]
colors = ['r', 'g', 'b', 'orange']

plt.figure(figsize=(12, 6))
ax = plt.subplot(111)
for i in range(len(mse)):
    ax.barh(i, mse[i], color=colors[i], alpha=0.6, align='center')
    
ax.set_title('Imputation Techniques with Boston Data')
ax.set_xlim(left=np.min(mse) * 0.9,
            right=np.max(mse) * 1.1
           )
ax.set_yticks(range(len(mse)))
ax.set_xlabel('MSE')
ax.set_yticklabels(x_labels)
plt.show()

sklearn：隨機森林_迴歸樹_波士頓房價_填補缺失值

分類樹和迴歸樹引數差別： criterion 分類：使用資訊增益，迴歸：均方誤差MSE，使用均值。mse是父節點與葉子節點之間的均方誤差，用來選擇特徵。同時也是用於衡量模型質量的指標。均方誤差是正的，但是sklear

sklearn：隨機森林_分類器_紅酒資料集

from sklearn.datasets import load_wine from sklearn.ensemble import RandomForestClassifier from sklearn.tree import DecisionTreeClassifier

Sklearn實現隨機森林

技術標籤：機器學習# Sklearn筆記sklearn隨機森林機器學習 >>> from sklearn.model_selection import cross_val_score

@[機器學習應用篇：隨機森林]

技術標籤：機器學習資料探勘 (機器學習演算法應用篇：隨機森林) 引言前段時間做國創專案，用到了隨機森林演算法，今天來總結一下相關知識以及實現過程。

Python 填補缺失值 Pandas SimpleImputer 隨機森林模型（機器學習）

技術標籤：機器學習AI找不到女朋友系列機器學習python大資料人工智慧深度學習

4.線性迴歸api與波士頓房價預測案例

線性迴歸api再介紹 sklearn.linear_model.LinearRegression(fit_intercept=True) 通過正規方程優化

sklearn：決策分類樹_紅酒資料集

from sklearn import tree from sklearn.datasets import load_wine# 紅酒資料 from sklearn.model_selection import train_test_split

機器學習sklearn（四十）：演算法例項（九）迴歸（二）隨機森林迴歸器 RandomForestRegressor

class sklearn.ensemble.RandomForestClassifier(n_estimators=’10’, criterion=’gini’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’,max_l

R語言用邏輯迴歸、決策樹和隨機森林對信貸資料集進行分類預測

原文連結：http://tecdat.cn/?p=17950 在本文中，我們使用了邏輯迴歸、決策樹和隨機森林模型來對信用資料集進行分類預測並比較了它們的效能。資料集是

怎麼設計樹狀管理後臺_微服務架構實戰：商家管理後臺與sso設計：SSO設計

技術標籤：怎麼設計樹狀管理後臺 SSO設計 Spring Security是一個功能強大、可定製的身份驗證和訪問控制框架.Spring Security OAuth2是一個基於Spring框架支援第三方應用授權的工具元件。通過使用Spring Securit

十二、機器學習演算法整合（knn、樸素貝葉斯、決策樹、隨機森林、線性迴歸、嶺迴歸、邏輯迴歸、聚類、支援向量機）

技術標籤：機器學習決策樹聚類機器學習一、需要匯入的庫： \'\'\' 作者:小宇最後完成日期：2021.2.28

機器學習sklearn（三十九）：演算法例項（八）分類（四）隨機森林分類器 RandomForestRegressor

class sklearn.ensemble.RandomForestRegressor(n_estimators=’warn’, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’,max_l

資料結構與演算法_23 _ 二叉樹基礎（上）：什麼樣的二叉樹適合用陣列來儲存

前面我們講的都是線性表結構，棧、佇列等等。今天我們講一種非線性表結構，樹。樹這種資料結構比線性表的資料結構要複雜得多，內容也比較多，所以我會分四節來講解。

資料結構與演算法_48 _ B+樹：MySQL資料庫索引是如何實現的

作為一個軟體開發工程師，你對資料庫肯定再熟悉不過了。作為主流的資料儲存系統，它在我們的業務開發中，有著舉足輕重的地位。在工作中，為了加速資料庫中資料的查詢速度，我們常用的處理思路是，對錶中資料建立索

演演算法崗面試題：模型的bias和variance是什麼？用隨機森林舉例

校招在即，準備準備一些面試可能會用到的東西吧。希望這次面試不會被掛。

kaggle 入門比賽：使用隨機森林解Bag of Words Meets Bags of Popcorn解題報告

　　這個kaggle比賽就是使用word2Vec，將句子轉換為多個詞向量進行情感分析，判斷句子是好評還是差評。

機器學習之決策樹和隨機森林

一、迴歸實踐程式碼知識點總結 sklearn常用庫函式總結： from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.linear_model import L

超星學習通_智慧樹網課答案查詢2020

學習通、智慧樹、慕課、爾雅等網路課程，是很多同學正在學習且頻繁使用的，學習通網課難度比較大，題比較難做，，，，不過不用擔心，下面我分享一個如何快速查詢難題，幫助同學們快速高效完成作業及考試的

資料分析模型之決策樹及隨機森林

決策樹資訊熵熵原本是物理學中的⼀個定義，後來⾹農將其引申到了資訊理論領域，⽤來表示資訊量的⼤⼩。資訊量越⼤（分類越不“純淨”），對應的熵值就越⼤，反之亦然。

樹鏈剖分_[模板]

題目連結：洛谷P3374 【模板】輕重鏈剖分 #include<iostream> #include<algorithm>

sklearn：隨機森林_迴歸樹_波士頓房價_填補缺失值

用隨機森林迴歸填補缺失值

相關推薦