Pandas 缺失資料處理的實現

阿新 • • 發佈：2020-01-09

資料丟失(缺失)在現實生活中總是一個問題。機器學習和資料探勘等領域由於資料缺失導致的資料質量差，在模型預測的準確性上面臨著嚴重的問題。在這些領域，缺失值處理是使模型更加準確和有效的重點。

使用重構索引(reindexing)，建立了一個缺少值的DataFrame。在輸出中，NaN表示不是數字的值。

一、檢查缺失值

為了更容易地檢測缺失值(以及跨越不同的陣列dtype)，Pandas提供了isnull()和notnull()函式，它們也是Series和DataFrame物件的方法

示例1

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5,3),index=['a','c','e','f','h'],columns=['one','two','three'])

df = df.reindex(['a','b','d','g','h'])

print(df)
print('\n')

print (df['one'].isnull())

輸出結果：

one two three
a 0.036297 -0.615260 -1.341327
b NaN NaN NaN
c -1.908168 -0.779304 0.212467
d NaN NaN NaN
e 0.527409 -2.432343 0.190436
f 1.428975 -0.364970 1.084148
g NaN NaN NaN
h 0.763328 -0.818729 0.240498

a False
b True
c False
d True
e False
f False
g True
h False
Name: one,dtype: bool

示例2

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5,'h'])

print (df['one'].notnull())

輸出結果：
a True
b False
c True
d False
e True
f True
g False
h True
Name: one,dtype: bool

二、缺少資料的計算

在求和資料時，NA將被視為0
如果資料全部是NA，那麼結果將是NA

例項1

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5,'h'])

print(df)
print('\n')

print (df['one'].sum())

輸出結果：

one two three

a -1.191036 0.945107 -0.806292
b NaN NaN NaN
c 0.127794 -1.812588 -0.466076
d NaN NaN NaN
e 2.358568 0.559081 1.486490
f -0.242589 0.574916 -0.831853
g NaN NaN NaN
h -0.328030 1.815404 -1.706736

0.7247067964060545

示例2

import pandas as pd

df = pd.DataFrame(index=[0,1,2,3,4,5],'two'])

print(df)
print('\n')

print (df['one'].sum())

輸出結果：

one two
0 NaN NaN
1 NaN NaN
2 NaN NaN
3 NaN NaN
4 NaN NaN
5 NaN NaN

0

三、填充缺少資料

Pandas提供了各種方法來清除缺失的值。fillna()函式可以通過幾種方法用非空資料“填充”NA值。

用標量值替換NaN

以下程式顯示如何用0替換NaN。

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(3,'e'],'c'])

print (df)
print('\n')

print ("NaN replaced with '0':")
print (df.fillna(0))

輸出結果：

one two three
a -0.479425 -1.711840 -1.453384
b NaN NaN NaN
c -0.733606 -0.813315 0.476788

NaN replaced with '0':
one two three
a -0.479425 -1.711840 -1.453384
b 0.000000 0.000000 0.000000
c -0.733606 -0.813315 0.476788

在這裡填充零值; 當然，也可以填寫任何其他的值。

替換丟失(或)通用值

很多時候，必須用一些具體的值取代一個通用的值。可以通過應用替換方法來實現這一點。用標量值替換NA是fillna()函式的等效行為。

示例

import pandas as pd

df = pd.DataFrame({'one':[10,20,30,40,50,2000],'two':[1000,60]})

print(df)
print('\n')

print (df.replace({1000:10,2000:60}))

輸出結果：

one two
0 10 1000
1 20 0
2 30 30
3 40 40
4 50 50
5 2000 60

one two
0 10 10
1 20 0
2 30 30
3 40 40
4 50 50
5 60 60

填寫NA前進和後退

使用重構索引章節討論的填充概念，來填補缺失的值。

方法動作

pad/fill 填充方法向前

bfill/backfill 填充方法向後

方法	動作
pad/fill	填充方法向前
bfill/backfill	填充方法向後

示例1

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5,'h'])

print(df)
print('\n')

print (df.fillna(method='pad'))

輸出結果：

one two three
a -0.023243 1.671621 -1.687063
b NaN NaN NaN
c -0.933355 0.609602 -0.620189
d NaN NaN NaN
e 0.151455 -1.324563 -0.598897
f 0.605670 -0.924828 -1.050643
g NaN NaN NaN
h 0.892414 -0.137194 -1.101791

one two three
a -0.023243 1.671621 -1.687063
b -0.023243 1.671621 -1.687063
c -0.933355 0.609602 -0.620189
d -0.933355 0.609602 -0.620189
e 0.151455 -1.324563 -0.598897
f 0.605670 -0.924828 -1.050643
g 0.605670 -0.924828 -1.050643
h 0.892414 -0.137194 -1.101791

示例2

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5,'h'])

print (df.fillna(method='backfill'))

輸出結果：

one two three
a 2.278454 1.550483 -2.103731
b -0.779530 0.408493 1.247796
c -0.779530 0.408493 1.247796
d 0.262713 -1.073215 0.129808
e 0.262713 -1.073215 0.129808
f -0.600729 1.310515 -0.877586
g 0.395212 0.219146 -0.175024
h 0.395212 0.219146 -0.175024

四、丟失缺少的值

使用dropna函式和axis引數。預設情況下，axis = 0，即在行上應用，這意味著如果行內的任何值是NA，那麼整個行被排除。

例項1

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5,'h'])

print (df.dropna())

輸出結果：

one two three
a -0.719623 0.028103 -1.093178
c 0.040312 1.729596 0.451805
e -1.029418 1.920933 1.289485
f 1.217967 1.368064 0.527406
h 0.667855 0.147989 -1.035978

示例2

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5,'h'])

print (df.dropna(axis=1))

輸出結果：

Empty DataFrame
Columns: []
Index: [a,b,c,d,e,f,g,h]

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Pandas 缺失資料處理的實現

Python 中pandas索引切片讀取資料缺失資料處理問題

引入　　numpy已經能夠幫助我們處理資料，能夠結合matplotlib解決我們資料分析的問題，那麼pandas學習的目的在什麼地方呢？ numpy能夠幫我們處理處理數值型資料，但是這還不夠很多時候，我們的資料除了數值之外，還

Pandas之缺失資料的實現

前言本章介紹pandas中的缺失資料，主要內容有： pandas中對np.nan的操作：統計、刪除、填充、插值

簡單瞭解Pandas缺失值處理方法

這篇文章主要介紹了簡單瞭解Pandas缺失值處理方法,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

pandas 空資料處理方法詳解

這篇文章主要介紹了pandas 空資料處理方法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

pandas | 使用pandas進行資料處理——Series篇

本文始發於個人公眾號：TechFlow，原創不易，求個關注上週我們關於Python中科學計算庫Numpy的介紹就結束了，今天我們開始介紹一個新的常用的計算工具庫，它就是大名鼎鼎的Pandas。

pandas | 使用pandas進行資料處理——DataFrame篇

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天是pandas資料處理專題的第二篇文章，我們一起來聊聊pandas當中最重要的資料結構——DataFrame。

用pandas劃分資料集實現訓練集和測試集

1、使用model_select子模組中的train_test_split函式進行劃分資料：使用kaggle上Titanic資料集

20-Pandas時序資料處理（日期範圍、頻率及移動）

一、生成日期範圍的時序資料 pd.date_range()可用於生成指定長度的日期索引，預設產生按天計算的時間點（即日期範圍）。其引數可以是：

Pandas系列教程（6）Pandas缺失值處理

Pandas缺失值處理 Pandas使用這些函式處理缺失值： isnull和notnull: 檢測是否是空值，可用於df和Series

【12月DW打卡】joyful-pandas - 07 - pandas缺失資料（缺失值的統計刪除、填充插值、KNN的簡單使用） + 腦圖大綱

缺失資料腦圖大綱小結原文指路：(joyful-pandas)[https://datawhalechina.github.io/joyful-pandas/build/html/目錄/ch7.html#id6]

pandas--缺失資料

技術標籤：pythonpandas 一、缺失值的統計和刪除 1. 缺失資訊的統計缺失資料可以使用isna或isnull（兩個函式沒有區別）來檢視每個單元格是否缺失，結合mean可以計算出每列缺失值的比例：

Python3基礎語法03|用Pandas來資料處理（1）

技術標籤：python基礎python資料分析pandas 1.Pandas是什麼 Pandas是Python核心的資料分析庫，如果你需要操作資料庫，處理資料庫表或者excel表，那必然會接觸到Pandas這個好幫手啦~

Pandas的資料過濾實現

作者|Amanda Iglesias Moreno 編譯|VK 來源|Towards Datas Science 從資料幀中過濾資料是清理資料時最常見的操作之一。Pandas提供了一系列根據行和列的位置和標籤選擇資料的方法。此外，Pandas還允許你根據列型別獲取

Pandas教程 | 資料處理三板斧——map、apply、applymap詳解

在日常的資料處理中，經常會對一個DataFrame進行逐行、逐列和逐元素的操作，對應這些操作，Pandas中的map、apply和applymap可以解決絕大部分這樣的資料處理需求。這篇文章就以案例附帶圖解的方式，為大家詳細介紹一

pandas 缺失值與空值處理的實現方法

1.相關函式 df.dropna() df.fillna() df.isnull() df.isna() 2.相關概念空值：在pandas中的空值是\"\"

pandas資料處理之繪圖的實現

Pandas是Python中非常常用的資料處理工具，使用起來非常方便。它建立在NumPy陣列結構之上，所以它的很多操作通過NumPy或者Pandas自帶的擴充套件模組編寫，這些模組用Cython編寫並編譯到C，並且在C上執行，因此也保證

Pandas高階教程之:處理缺失資料

目錄簡介NaN的例子整數型別的缺失值Datetimes 型別的缺失值None 和np.nan 的轉換缺失值的計算使用fillna填充NaN資料使用dropna刪除包含NA的資料插值interpolation使用replace替換值

Pandas 資料清洗缺失值處理

# 1）讀取資料: df = pd.read_excel(\'file_path\', skiprows=2)跳過2個空行的資料不讀取 # 2）檢測空值:

pandas中read_csv的缺失值處理方式

今天遇到的問題是，要將一份csv資料讀入dataframe，但某些列中含有NA值。對於這些列來說，NA應該作為一個有意義的level，而不是缺失值，但read_csv函式會自動將類似的缺失值理解為缺失值並變為NaN。

Pandas 缺失資料處理的實現

相關推薦