資料處理 - 處理缺失值

阿新 • • 發佈：2021-10-19

1.處理缺失值方法

在pandas中，將缺失值稱為NA，意思是not available（不可用）

pandas在處理缺失值時，我們先了解相關函式介紹。

NA處理方法：

函式名	描述
dropna	根據每個標籤的值是否是缺失資料來篩選軸標籤，並根據允許丟失的資料量來確定閾值
fillna	用某些值填充缺少的資料或使用插值方法（如‘ffill’或'bfill')
isnull	返回表名哪些值是缺失值的布林值
notnull	isnull的反函式

2.過濾缺失值

過濾缺失值方法有很多種，可以使用pandas.dropna過濾缺失值。

先看一個例子，後續以下面張三李四等人考試成績為例說明，其中把缺失值（nan）當成缺考。

import pandas as pd
from numpy import nan

data = pd.DataFrame([['張三', 86, 74, 69, 70, 92],
                    ['李四', 61, 85, 68, 89, 93],
                    ['王五', 63, 91, 98, nan, 88],
                    ['小明', 77, None, nan, 82, 82], # None也會被當作NA處理
                    ['小王', nan, nan, nan, nan, nan]],
                    columns=['姓名', '語文', '數學', '歷史', '英語', '地理'])
print(data)
"""
   姓名    語文    數學    歷史    英語    地理
0  張三  86.0  74.0  69.0  70.0  92.0
1  李四  61.0  85.0  68.0  89.0  93.0
2  王五  63.0  91.0  98.0   NaN  88.0
3  小明  77.0   NaN   NaN  82.0  82.0
4  小王   NaN   NaN   NaN   NaN   NaN
"""

過濾缺失值

##### 過濾至少一個NA的行 #####
print(data.dropna())
"""
    姓名    語文    數學    歷史    英語    地理
0  張三  86.0  74.0  69.0  70.0  92.0
1  李四  61.0  85.0  68.0  89.0  93.0
"""

##### 指定哪些列過濾缺失值 #####
print(data.dropna(subset=['數學'])
"""
   姓名    語文    數學    歷史    英語    地理
0  張三  86.0  74.0  69.0  70.0  92.0
1  李四  61.0  85.0  68.0  89.0  93.0
2  王五  63.0  91.0  98.0   NaN  88.0
"""

3.探索缺失值

##### 檢視空值 #####
print(data.isnull().sum())
"""
姓名    0
語文    1
數學    2
歷史    2
英語    2
地理    1
dtype: int64
"""

##### 取出所有有空值的記錄 #####
print(data[data.isnull().T.any()])
"""
   姓名    語文    數學    歷史    英語    地理
2  王五  63.0  91.0  98.0   NaN  88.0
3  小明  77.0   NaN   NaN  82.0  82.0
4  小王   NaN   NaN   NaN   NaN   Na
"""

4.補全缺失值

你有時候可能有很多種方式補全缺失值，而不是過濾缺失值，這裡我以均值補全缺失值為例講解

##### 你可能最先想到有某個值（標量）補全，比如補全數字：60 #####
print(data.fillna(60))
"""
   姓名    語文    數學    歷史    英語    地理
0  張三  86.0  74.0  69.0  70.0  92.0
1  李四  61.0  85.0  68.0  89.0  93.0
2  王五  63.0  91.0  98.0  60.0  88.0
3  小明  77.0  60.0  60.0  82.0  82.0
4  小王  60.0  60.0  60.0  60.0  60.0
"""
##### 進一步以每一科成績的平均值作為填充值 #####
mean_dict = data.mean().to_dict()  	 # 拿到字典格式的每科成績的均值
data.fillna(mean_dict, inplace=True) # 均值作為填充值補全缺失值
data = data.applymap(lambda x: '%.2f' % x if isinstance(x, (float, int)) else x) # 為了輸出結果有意義，小數保留2位
print(data)
"""
   姓名     語文     數學     歷史     英語     地理
0  張三  86.00  74.00  69.00  70.00  92.00
1  李四  61.00  85.00  68.00  89.00  93.00
2  王五  63.00  91.00  98.00  80.33  88.00
3  小明  77.00  83.33  78.33  82.00  82.00
4  小王  71.75  83.33  78.33  80.33  88.75
"""

總結

在呼叫fillna補全缺失值，不僅可以傳入常量值，可以傳入設定不同的填充值的字典。

【Python】【資料分析】缺失值處理——插值

題目連結 http://www.mathorcup.org/detail/2260 本文僅演示資料預處理環節資料預處理本文取每個水池中，A、B兩個取樣點各理化因子的實測值的均值作為各理化因子的計算值。總磷、總淡、氨氮15周的資料可以參考附件

機器學習第2篇：資料預處理（缺失值）

在真實的世界中，缺失資料是經常出現的，並可能對分析的結果造成影響。一，資料缺失的原因

函式下午茶(2):資料檢測與缺失值處理~

技術標籤：資料分析python資料分析pandas 資料檢測與缺失值處理~ 1.DataFrame.isnull()和notnull()函式

ALINK(十七)：資料處理（三）缺失值處理(一)缺失值填充批預測

Java 類名：com.alibaba.alink.operator.batch.dataproc.ImputerPredictBatchOp Python 類名：ImputerPredictBatchOp

ALINK(十八)：資料處理（四）缺失值處理(二)缺失值填充訓練 (ImputerTrainBatchOp)

Java 類名：com.alibaba.alink.operator.batch.dataproc.ImputerTrainBatchOp Python 類名：ImputerTrainBatchOp

處理資料中的缺失值

資料集: train=pd.read_csv(\'./1.csv\')//用程式碼讀取資料 print(train)//並對其輸出輸出結果:

python實現資料清洗(缺失值與異常值處理)

1。將本地sql檔案寫入mysql資料庫本文寫入的是python資料庫的taob表 source [本地檔案]

3.5.3 資料排序；重複數值、缺失值處理

1.匯入三方庫 import numpy as npimport pandas as pd df = pd.read_csv(\'table.csv\',index_col=\'ID\') #用來指定表格的索引值df.head(2)

入門pandas—處理缺失值與重複資料的處理

技術標籤：pythonpandas 處理缺失值填充常數 import pandas as pd path = \'C:/Users/Administrator/Desktop/playground2/刪除.xlsx\'

機器學習sklearn（五）：資料集處理（二）缺失值處理

6.4.Imputation of missing values For various reasons, many real world datasets contain missing values, often encoded as blanks, NaNs or other placeholders. Such datasets however are incompatible with