詳解Pandas 處理缺失值指令大全

阿新 • • 發佈：2020-07-31

前言

運用pandas 庫對所得到的資料進行資料清洗，複習一下相關的知識。

1 資料清洗

1.1 處理缺失資料

對於數值型資料，分為缺失值（NAN）和非缺失值，對於缺失值的檢測，可以通過Python中pandas庫的Series類物件的isnull方法進行檢測。

import pandas as pd
import numpy as np
string_data = pd.Series(['Benzema','Messi',np.nan,'Ronaldo'])
string_data.isnull()

對於缺失值，除了np.nan來表示，還可以用None來表示缺失值

string_data = None

1.2 濾除掉缺失資料

1.2.1 對於Series

使用dropna方法將NAN的資料過濾掉。

from numpy import nan as NA
import pandas as pd
data = pd.Series([1,NA,4.5,5])
data.dropna()

另一種方法是使用布林值索引對NAN資料進行過濾：

data[data.notnull()]

1.2.2 對於DataFrame

dropna()方法對於DataFrame的資料來說，會將含有NAN資料的行全部扔掉。

data = pd.DataFrame([[1.,6.5,3.],[1.,NA],[NA,3.]])
data
data.dropna()

如果只想刪除掉那些行中全部為NAN資料的DataFrame，通過設定dropna()方法中的引數how即可。

data.dropna(how = 'all')

如果操作物件變為列,程式碼如下：

data[4] = NA
data
data.dropna(axis=1,how = 'all')

如果想留下其中的一部分資料，則可以設定thresh引數：

df = pd.DataFrame(np.random.randn(7,3))
df.iloc[:4,1] = NA
df.iloc[:2,2] = NA
df
df.dropna(thresh = 2)

thresh = n,引數n相當於保留至少含有n個非NA的行

1.3 填充缺失資料

fillna(n),n替換掉NA

df = pd.DataFrame(np.random.randn(7,3))
df.fillna(0)

如果填充格式是字典，fillna({0:n1,1:n2}),將列0的NA填充為 n1,將列1的NA填充為 n2。

df.fillna({{1 : 0.2,2 : 0.3}})

直接填充df的NA值，直接改變df,不需要命名新的變數。

df.fillna(0,inplace = True)

2 資料轉換

2.1 移除重複資料

data = pd.DataFrame({'k1': ['one','two'] * 3 + ['two'],'k2': [1,1,2,3,4,4]})
data.duplicated()

返回的是每一行的重複結果，不重複是False,重複是True。

如果要去除重複的行，程式碼如下：

data.drop_duplicates()

如果操作物件為列，在duplicated方法中指定引數即可。

data['k3'] = range(7)
data.duplicated(['k1'])

返回的是 k1 列中重複的元素。

對於drop_duplicates()方法來說，去除掉的是重複資料的後者。比如說序號為0,1的資料重複，方法刪除掉index = 1的行。如果想要刪除前者，只需要指定引數 last即可：

data.drop_duplicates(['k1'],keep = 'last')

2.2 與對映相結合

map函式的使用方法

list(map(lambda x : 2 * x,range(10)))

2.3 替換

使用的是replace 方法，replace有兩個引數，前者是被替換的數，後者是替換的數，引數格式可以是列表，也可以是字典

data = pd.Series([1.,-999.,2.,-1000.,3.])
data.replace(-999.0,np.nan) #替換單個值
data.replace([-999.0,-1000.0],np.nan) #用一個值替換多個值
data.replace([-999.0,[np.nan,0]) # 用不同值替換不同值
data.replace({-999.0 : 0,-1000.0 : np.nan}) # 格式為字典

2.4 建立資料的修改版

rename方法可以建立資料的修改版，而不必在原資料上進行修改。

data.rename(index=str.title,columns=str.upper)

還可以使用字典的格式,對index,columns 進行改變。

data.rename(index = {'OHIO': 'INDIANA'},columns = {'three': 'peekaboo'})

這樣的重新命名並不對原資料進行修改，如果想要直接改變data,如上，引數inplace = True即可。

data.rename(index = {'OHIO': 'INDIANA'},columns = {'three': 'peekaboo'},inplace = True)
data

這樣就改變了data。

2.5 計算指標\啞變數

用於機器學習中，對定類資料的轉化，用於將df中的object物件轉化為One-hot編碼，消除了數字間的比較大小問題。

df = pd.DataFrame({'key': ['b','b','a','c','b'],'data1': range(6)})
pd.get_dummies(df['key']) # 分解了key 列，分開了三個屬性

如果想在分開的屬性前面加上字首的話，設定prefix 引數即可實現該功能,可以將其與原始資料合併在一起。

dummies = pd.get_dummies(df['key'],prefix = 'key')
df_with_dummies = df['data1'].join(dummies)
df_with_dummies

到此這篇關於詳解Pandas 處理缺失值指令大全的文章就介紹到這了,更多相關Pandas 處理缺失值內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

詳解Pandas 處理缺失值指令大全

前言運用pandas 庫對所得到的資料進行資料清洗，複習一下相關的知識。 1 資料清洗

入門pandas—處理缺失值與重複資料的處理

技術標籤：pythonpandas 處理缺失值填充常數 import pandas as pd path = \'C:/Users/Administrator/Desktop/playground2/刪除.xlsx\'

Python Pandas對缺失值的處理方法

Pandas使用這些函式處理缺失值： isnull和notnull：檢測是否是空值，可用於df和series

詳解pandas獲取Dataframe元素值的幾種方法

可以通過遍歷的方法： pandas按行按列遍歷Dataframe的幾種方式：https://www.jb51.net/article/172623.htm

6-Pandas之缺失值處理

一、瞭解缺失值通常使用 NA(\'not available\')來代指缺失值在Pandas的資料結構中，缺失值使用 NaN(\'Not a Number\')進行標識

詳解pandas賦值失敗問題解決

一、pandas對整列賦值這個比較正常，一般直接賦值就可以: x = pd.DataFrame({\'A\': [\'1\',\'2\',\'3\',None,None],\'B\': [\'4\',\'5\',\'6\',\'7\',None]})

Pandas中缺失值/NaN值/空值的處理

isna() 釋義篩選為NaN的布林值，可接受單個標量或者陣列舉例篩選stu_name為NaN的所有行：

pandas之缺失值處理

在一些資料分析業務中，資料缺失是我們經常遇見的問題，缺失值會導致資料質量的下降，從而影響模型預測的準確性，這對於機器學習和資料探勘影響尤為嚴重。因此妥善的處理缺失值能夠使模型預測更為準確和有效。

詳解pandas中iloc, loc和ix的區別和聯絡

Pandas庫十分強大，但是對於切片操作iloc,loc和ix，很多人對此十分迷惑，因此本篇部落格利用例子來說明這3者之一的區別和聯絡，尤其是iloc和loc。

詳解pandas繪製矩陣散點圖(scatter_matrix)的方法

使用散點圖矩陣圖，可以兩兩發現特徵之間的聯絡 pd.plotting.scatter_matrix(frame,alpha=0.5,c,figsize=None,ax=None,diagonal=\'hist\',marker=\'.\',density_kwds=None,hist_kwds=None,range_padding=0.05,**kw

詳解pandas.DataFrame.plot() 畫圖函式

首先看官網的DataFrame.plot( )函式 DataFrame.plot(x=None,y=None,kind=\'line\',ax=None,subplots=False,sharex=None,sharey=False,layout=None,figsize=None,use_index=True,title=None,grid=None,legend=True,