pandas:填充缺失值 fillna("missing") 和fillna("missing",inplace=True)的區別

阿新 • • 發佈：2019-01-23

當資料中存在NaN缺失值時，我們可以用其他數值替代NaN，主要用到了DataFrame.fillna()方法，下面我們來看看具體的用法：

1.先來建立一個帶有缺失值的DataFrame:

# coding=utf-8
import numpy as np
import xgboost as xgb
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
import csv
from pandas import DataFrame

df=pd.DataFrame(np.random.randn(5,3),index=list('abcde'),columns=['one','two','three'])
print df  #原有資料
print('\n')
df.ix[1,:-1]=np.nan  #第1行，從第0列到倒數第1列 的所有資料填充為NaN （都是從0行，0列開始的 ）
df.ix[1:-1,2]=np.nan #第1行到倒數第1行，第2列 的所有資料填充為NaN （都是從0行，0列開始的 ）
print df  #被填充有空值的資料
print('\n')
print df.fillna("missing")  #此資料已被填充
print('\n')
print df  #df 的內容還是原來有空值的資料
print('\n')
print df.fillna(method='pad')  #用前一個數據代替NaN：method='pad'
print('\n')
print df.fillna(method='bfill',limit=1)  #與pad相反，bfill表示用後一個數據代替NaN
print('\n')
print df.fillna(df.mean()) #使用平均數或者其他描述性統計量來代替NaN
print('\n')
print df.fillna(df.mean()['one':'two']) #選擇哪一列進行缺失值的處理

結果：

        one       two     three
a  0.348287 -0.579763 -0.687073
b -0.128967  1.734375 -1.530778
c  0.448428 -0.791999  0.620952
d  0.808736 -0.554402 -0.094709
e  1.553160 -1.336362 -0.159426


        one       two     three
a  0.348287 -0.579763 -0.687073
b       NaN       NaN       NaN
c  0.448428 -0.791999       NaN
d  0.808736 -0.554402       NaN
e  1.553160 -1.336362 -0.159426


        one       two     three
a  0.348287 -0.579763 -0.687073
b   missing   missing   missing
c  0.448428 -0.791999   missing
d  0.808736 -0.554402   missing
e   1.55316  -1.33636 -0.159426


        one       two     three
a  0.348287 -0.579763 -0.687073
b       NaN       NaN       NaN
c  0.448428 -0.791999       NaN
d  0.808736 -0.554402       NaN
e  1.553160 -1.336362 -0.159426


        one       two     three
a  0.348287 -0.579763 -0.687073
b  0.348287 -0.579763 -0.687073
c  0.448428 -0.791999 -0.687073
d  0.808736 -0.554402 -0.687073
e  1.553160 -1.336362 -0.159426


        one       two     three
a  0.348287 -0.579763 -0.687073
b  0.448428 -0.791999       NaN
c  0.448428 -0.791999       NaN
d  0.808736 -0.554402 -0.159426
e  1.553160 -1.336362 -0.159426


        one       two     three
a  0.348287 -0.579763 -0.687073
b  0.789653 -0.815631 -0.423249
c  0.448428 -0.791999 -0.423249
d  0.808736 -0.554402 -0.423249
e  1.553160 -1.336362 -0.159426


        one       two     three
a  0.348287 -0.579763 -0.687073
b  0.789653 -0.815631       NaN
c  0.448428 -0.791999       NaN
d  0.808736 -0.554402       NaN
e  1.553160 -1.336362 -0.159426

2、 fillna("missing") 和fillna("missing",inplace=True)的區別

# coding=utf-8
import numpy as np
import xgboost as xgb
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
import csv
from pandas import DataFrame

df=pd.DataFrame(np.random.randn(5,3),index=list('abcde'),columns=['one','two','three'])
print df  #原有資料
print('\n')
df.ix[1,:-1]=np.nan  #第1行，從第0列到倒數第1列 的所有資料填充為NaN （都是從0行，0列開始的 ）
df.ix[1:-1,2]=np.nan #第1行到倒數第1行，第2列 的所有資料填充為NaN （都是從0行，0列開始的 ）
print df    #被填充有空值的資料
print('\n')
print df.fillna("missing")  #df 原資料沒有被 missing 填充，df 的資料沒有變
print('\n')
print df   #df 原資料沒有被 missing 填充，df 的資料沒有變
print('\n')
df.fillna("missing",inplace=True)  #df 原資料已被 missing 填充
print df   #df 原資料已被 missing 填充
print "----------"

結果：

        one       two     three
a  0.428457 -0.797473 -0.448647
b -1.744598 -0.944395  0.952140
c  1.096071  0.812616  1.980379
d -1.120961  1.193119  0.455609
e  1.039164 -0.384459  0.289628


        one       two     three
a  0.428457 -0.797473 -0.448647
b       NaN       NaN       NaN
c  1.096071  0.812616       NaN
d -1.120961  1.193119       NaN
e  1.039164 -0.384459  0.289628


        one       two     three
a  0.428457 -0.797473 -0.448647
b   missing   missing   missing
c   1.09607  0.812616   missing
d  -1.12096   1.19312   missing
e   1.03916 -0.384459  0.289628


        one       two     three
a  0.428457 -0.797473 -0.448647
b       NaN       NaN       NaN
c  1.096071  0.812616       NaN
d -1.120961  1.193119       NaN
e  1.039164 -0.384459  0.289628


        one       two     three
a  0.428457 -0.797473 -0.448647
b   missing   missing   missing
c   1.09607  0.812616   missing
d  -1.12096   1.19312   missing
e   1.03916 -0.384459  0.289628
----------

pandas:填充缺失值 fillna("missing") 和fillna("missing",inplace=True)的區別

當資料中存在NaN缺失值時，我們可以用其他數值替代NaN，主要用到了DataFrame.fillna()方法，下面我們來看看具體的用法： 1.先來建立一個帶有缺失值的DataFrame: # co

pandas:填充缺失值

當資料中存在NaN缺失值時，我們可以用其他數值替代NaN，主要用到了DataFrame.fillna()方法，下面我們來看看具體的用法： 1.先來建立一個帶有缺失值的DataFrame:import

pandas 處理缺失值[dropna、drop、fillna]

面對缺失值三種處理方法： option 1：去掉含有缺失值的樣本（行） option 2：將含有缺失值的列（特徵向量）去掉 option 3：將缺失值用某些值填充（0，平均值，中值等）對於dro

Pandas DataFrame缺失值的查詢與填充

檢視DataFrame中每一列是否存在空值： temp = data.isnull().any() #列中是否存在空值 print(type(temp)) print(temp) 結果如下，返回結果型別是Series，列中不存在空值則對應值為False： <cla

【python學習筆記】42：Pandas資料缺失值/異常值/重複值處理

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。缺失值處理 Pandas資料物件中的缺失值表示為NaN。 import pandas as pd # 讀取杭州天氣檔案 df = pd.read_csv("E:/Data/practice/hz_we

在資料預處理中，如何填充缺失值？如何判斷異常值？

缺失值的處理： (1) 刪除缺失值； (2) 填補缺失值： <1>均值法填補根據缺失值的屬性相關係數最大的那個屬性把資料分成幾個組，然後分別計

Pandas資料庫缺失值處理函式dropna

Python資料分析博文彙總缺失值處理函式dropna：去除資料結構中值為空得資料。函式用法：dropna()from pandas import read_csv; df = read_csv('E://pythonlearning//datacode//firstpart

Python Pandas找到缺失值的位置

問題描述： python pandas判斷缺失值一般採用 isnull()，然而生成的卻是所有資料的true／false矩陣，對於龐大的資料dataframe，很難一眼看出來哪個資料缺失，一共有多少個缺失資料，缺失資料的位置。首先對於存在缺失值的資料，如下所示import p

用pandas處理缺失值補全及DictVectorizer特徵轉換

下面介紹的是用pands讀取泰坦尼克遇難船員的資料，然後挑選特徵，補全缺失值，特徵轉換。 1.pands讀取資料 titanic=pd.read_csv('./titanic.txt') 其資料形式如下： |row_num |pclass|survived|n

python pandas處理缺失值

缺失值：python中顯示為NaN，python用np.nan，None表示在簡單的運算+-*/中，有缺失值的畫，運算結果在相應的位置上也是缺失值在描述性統計sum,mean,min.max等中，NaN都是作為0進行運算操作：判斷返回一個含有布林值的物件，True表示是缺失值

值類型和引用類型的區別，struct和class的區別

tro 處理數據結構和算法 ron ever ring net string 分配 C#值類型和引用類型 1、簡單比較　　值類型的變量直接存儲數據，而引用類型的變量持有的是數據的引用，數據存儲在數據堆中。　　值類型（value type）：byte，short，int

值類型和引用類型的區別

值類型引用類型值類型的變量和引用類型的變量傳值的時候的區別：結果是：我們可這樣理解:num1就是一個文件，裏面存放了123這個數據，然後復制了一份，有了num2文件，那麽現在就有2個文件裏了，2份數據obj1就是一個文件的快捷方式，這個快捷方式指向了一個文件，裏面的存放的數據是{n:123},然後是把這個快

JAVA值類型和引用類型的區別

回收 attribute 布爾類型 tor main ava 引用接口類 test java這兩種數據類型分別有哪些？ java 中的數據類型分為兩大類：值類型（基本數據類型）和引用類型（復合數據類型）一：值類型：　　整數類型(byte，short，int，long)

值型別變數和引用型別變數的區別

主要區別在於系統在記憶體空間中為兩者分配儲存空間的方式不同。 1、記憶體空間記憶體空間分為棧空間和堆空間。值型別資料的儲存空間在棧空間中分配，引用型別資料則在堆空間分配。由系統管理棧空間的所有操作，包括進棧和出棧。當一個數據出棧後，其所分配到的儲存空間由系統自動回收。

陣列採用賦值新增元素和push新增元素的區別

最近做專案時（vue2.0）遇到此坑耗費不少時間，分享如下: data中定義初始結構： data:function(){ return { optionsArr: [{name: '', edit: false}], } }

Pandas學習筆記 - fillna()填充缺失資料

使用fillna()函式填充缺失值 import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(7,4)) df.loc[:4,1] = np.nan df.loc[:2,2] = np.nan df.

Pandas詳解十一之Fillna填充缺失資料

約定： import pandas as pd import numpy as np from numpy import nan as NaN 填充缺失資料 fillna()是最主要的處理方式了。 df1=pd.DataFra

Python清洗資料|填充缺失資料pd.fillna()

pd.DataFrame.fillna() 官方文件 DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

[Python] Pandas 對資料進行查詢、替換、篩選、排序、重複值和缺失值處理

[TOC] 查詢和替換是日常工作中很常見的資料預處理操作，下面就來講解如何使用pandas模組中的函式對DataFrame中的資料進行查詢和替換。 ## 1. 資料檔案 [產品統計表.7z](https://files.cnblogs.com/files/feily/%E4%BA%A7%E5%93%81%E

pandas 缺失值處理

存在 oat 值方法 ffi 重新 int div ext ram 說到缺失值處理無非兩種，delete或者fill：　　dropna 根據各標簽的值中是否存在缺失數據對軸標簽進行過濾，可通過閾值調節對缺失值得容忍度　　drop 見http://www.cnblogs.

pandas:填充缺失值 fillna("missing") 和fillna("missing",inplace=True)的區別

當資料中存在NaN缺失值時，我們可以用其他數值替代NaN，主要用到了DataFrame.fillna()方法，下面我們來看看具體的用法：

1.先來建立一個帶有缺失值的DataFrame:

相關推薦