Python 填補缺失值 Pandas SimpleImputer 隨機森林模型（機器學習）

阿新 • • 發佈：2021-02-12

技術標籤：機器學習 AI 找不到女朋友系列機器學習 python 大資料人工智慧深度學習

文章目錄

填補缺失值

填補缺失值

1、匯入相關庫

import pandas as pd
import numpy as np

from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor

2、建立資料

x=np.random.randint(1,100,(10000,5))
y=np.random.randint(1,10,10000)
rows=np.random.randint(0,1000,20)
cols=np.random.randint(0,5,20)
x=pd.DataFrame(x)
x.iloc[rows,cols]=np.nan

在這裡插入圖片描述

3、利用Pandas填補資料

x1=x.copy()
for i in x1.columns:
    x1[x1.isnull()]=x1[i].mean()
x1.isnull().sum()

在這裡插入圖片描述

4、sklearn庫填補

from sklearn.impute import SimpleImputer
sim=SimpleImputer(missing_values=np.nan,strategy='constant',fill_value=0)
x2=x.copy()
x2=sim.fit_transform(x2)
pd.DataFrame(x2).isnull().sum()

在這裡插入圖片描述

5、利用模型預測

from sklearn.ensemble import RandomForestRegressor  

x3= x.copy()
sortindex = np.argsort(x3.isnull().sum(axis=0)).values
for i in sortindex:
    #構建我們的新特徵矩陣和新標籤
    df = x3
    fillc = df.iloc[:,i]
    df = pd.concat([df.iloc[:,df.columns != i],pd.DataFrame(y)],axis=1)
    #在新特徵矩陣中，對含有缺失值的列，進行0的填補
    df_0 =SimpleImputer(missing_values=np.nan,
                        strategy='constant',
                        fill_value=0).fit_transform(df)
    #找出我們的訓練集和測試集
    y_train = fillc[fillc.notnull()]
    y_test = fillc[fillc.isnull()]
    x_train = df_0[y_train.index,:]
    x_test = df_0[y_test.index,:]
    clf = RandomForestRegressor(n_estimators=100)
    clf = clf.fit(x_train, y_train)
    y_pred = clf.predict(x_test)
    #將填補好的特徵返回到我們的原始的特徵矩陣中
    x3.loc[x3.iloc[:,i].isnull(),i] = y_pred
x3.isnull().sum()

在這裡插入圖片描述

Python 填補缺失值 Pandas SimpleImputer 隨機森林模型（機器學習）

技術標籤：機器學習AI找不到女朋友系列機器學習python大資料人工智慧深度學習

Python例項介紹正則化貪心森林演算法（附程式碼）

作者：Ankit Chaoudhary翻譯：笪潔瓊校對：樑傅淇通過本文與大家討論一個被稱為正則化的貪心森林演算法。

sklearn：隨機森林_迴歸樹_波士頓房價_填補缺失值

分類樹和迴歸樹引數差別： criterion 分類：使用資訊增益，迴歸：均方誤差MSE，使用均值。mse是父節點與葉子節點之間的均方誤差，用來選擇特徵。同時也是用於衡量模型質量的指標。均方誤差是正的，但是sklear

python 用隨機森林模型補充數值變數缺失值

技術標籤：work 對資料建模之前，填補缺失值是必不可少的一步，這裡把用隨機森林模型快速預測缺失值的方法總結如下，以方便日後的工作。

使用Python預測缺失值

作者|Sadrach Pierre, Ph.D. 編譯|VK 來源|Towards Data Science 對於資料科學家來說，處理丟失的資料是資料清理和模型開發過程中的一個重要部分。通常情況下，真實資料包含多個稀疏欄位或包含錯誤值的欄位。在這篇文

Python——隨機森林模型與ROC曲線

隨機森林模型，針對迴歸問題的預測值，可以使用所有樹的平均值；而分類問題的預測值，可以使用所有決策樹的投票來決定。Python中，使用sklearn庫就可以完成隨機森林模型的使用。針對隨機森林模型對測試樣本可預測出

如何在Python中從零開始實現隨機森林

決策樹可能會受到高度變異的影響，使得結果對所使用的特定測試資料而言變得脆弱。

氣象程式設計 | Python反距離權重(IDW)插值計算及視覺化繪製（網轉）

前面幾篇推文我們分辨介紹了使用Python和R繪製了二維核密度空間插值方法，並使用了Python視覺化庫plotnine、Basemap以及R的ggplot2完成了相關視覺化教程的繪製推文，詳細內容如下：

PyInstaller將Python檔案打包為exe後如何反編譯（破解原始碼）以及防止反編譯

環境： win7+python3.5(anaconda3) 理論上，win7及以上的系統和python任意版本均可。一、基礎指令碼

Python基礎最難知識點：正則表示式（使用步驟）

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

pandas、matplotlib常用命令（個人整理）

1 import matplotlib.pyplot as plt 2 import pandas as pd 3 import matplotlib as mpl 含有中文無法正常顯示，需增加如下程式碼：

如何利用Python給自己的頭像加一個小國旗（小月餅）

今年國慶節也是中秋節，首先祝大家節日快樂，本文我們使用 Python 來給自己的頭像加一個小國旗或小月餅。

Python爬取堆糖網優美古風頭像（附原始碼）

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

教你用 Python 給自己的頭像加一個小國旗（小月餅）

本文我們使用 Python 來給自己的頭像加一個小國旗或小月餅。需要python資料的可回覆01或加群獲取~

Python爬蟲抓取純靜態網站及其資源（基礎篇）

遇到的需求前段時間需要快速做個靜態展示頁面，要求是響應式和較美觀。由於時間較短，自己動手寫的話也有點麻煩，所以就打算上網找現成的。

Python爬蟲抓取純靜態網站及其資源（開發篇）

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

今天分享一個用Python來爬取小說的小指令碼！（附原始碼）

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python之極驗滑動驗證碼的識別（教程+案例）+識別豆瓣登入滑動驗證碼（附原始碼）

技術標籤：ppythonpython滑動驗證碼豆瓣selenium Python之極驗滑動驗證碼的識別（教程+案例）

隨機初始化（Random+Initialization）

隨機初始化（Random+Initialization）當你訓練神經網路時，權重隨機初始化是很重要的，如果你把權重或者引數都初始化為 0，那麼梯度下降將不會起作用，是如果你這樣初始化這個神經網路，那麼這兩個隱含單元就會完全

Python語言程式設計嵩天老師慕課筆記（第二章）

不同程式語言的誕生和流行是順應計算機發展潮流的： C語言誕生於計算機系統結構時代，當時計算機記憶體只有幾兆。要求關注計算機效能，提高效率。關注記憶體、指標、資料型別。