Python Pandas對缺失值的處理方法

阿新 • • 發佈：2020-01-09

Pandas使用這些函式處理缺失值：

isnull和notnull：檢測是否是空值，可用於df和series
dropna：丟棄、刪除缺失值
- axis : 刪除行還是列，{0 or ‘index',1 or ‘columns'},default 0
- how : 如果等於any則任何值為空都刪除，如果等於all則所有值都為空才刪除
- inplace : 如果為True則修改當前df，否則返回新的df
fillna：填充空值
- value：用於填充的值，可以是單個值，或者字典（key是列名，value是值）
- method : 等於ffill使用前一個不為空的值填充forword fill；等於bfill使用後一個不為空的值填充backword fill
- axis : 按行還是列填充，{0 or ‘index',1 or ‘columns'}
- inplace : 如果為True則修改當前df，否則返回新的df

import pandas as pd

例項：特殊Excel的讀取、清洗、處理

步驟1：讀取excel的時候，忽略前幾個空行

studf = pd.read_excel("./datas/student_excel/student_excel.xlsx",skiprows=2)

studf

Unnamed: 0 姓名科目分數

0 NaN 小明語文 85.0

1 NaN NaN 數學 80.0

2 NaN NaN 英語 90.0

3 NaN NaN NaN NaN

4 NaN 小王語文 85.0

5 NaN NaN 數學 NaN

6 NaN NaN 英語 90.0

7 NaN NaN NaN NaN

8 NaN 小剛語文 85.0

9 NaN NaN 數學 80.0

10 NaN NaN 英語 90.0

	Unnamed: 0	姓名	科目	分數
0	NaN	小明	語文	85.0
1	NaN	NaN	數學	80.0
2	NaN	NaN	英語	90.0
3	NaN	NaN	NaN	NaN
4	NaN	小王	語文	85.0
5	NaN	NaN	數學	NaN
6	NaN	NaN	英語	90.0
7	NaN	NaN	NaN	NaN
8	NaN	小剛	語文	85.0
9	NaN	NaN	數學	80.0
10	NaN	NaN	英語	90.0

步驟2：檢測空值

studf.isnull()

Unnamed: 0 姓名科目分數

0 True False False False

1 True True False False

2 True True False False

3 True True True True

4 True False False False

5 True True False True

6 True True False False

7 True True True True

8 True False False False

9 True True False False

10 True True False False

	Unnamed: 0	姓名	科目	分數
0	True	False	False	False
1	True	True	False	False
2	True	True	False	False
3	True	True	True	True
4	True	False	False	False
5	True	True	False	True
6	True	True	False	False
7	True	True	True	True
8	True	False	False	False
9	True	True	False	False
10	True	True	False	False

studf["分數"].isnull()

0 False
1 False
2 False
3 True
4 False
5 True
6 False
7 True
8 False
9 False
10 False
Name: 分數,dtype: bool

studf["分數"].notnull()

0 True
1 True
2 True
3 False
4 True
5 False
6 True
7 False
8 True
9 True
10 True
Name: 分數,dtype: bool

# 篩選沒有空分數的所有行
studf.loc[studf["分數"].notnull(),:]

Unnamed: 0 姓名科目分數

0 NaN 小明語文 85.0

1 NaN NaN 數學 80.0

2 NaN NaN 英語 90.0

4 NaN 小王語文 85.0

6 NaN NaN 英語 90.0

8 NaN 小剛語文 85.0

9 NaN NaN 數學 80.0

10 NaN NaN 英語 90.0

	Unnamed: 0	姓名	科目	分數
0	NaN	小明	語文	85.0
1	NaN	NaN	數學	80.0
2	NaN	NaN	英語	90.0
4	NaN	小王	語文	85.0
6	NaN	NaN	英語	90.0
8	NaN	小剛	語文	85.0
9	NaN	NaN	數學	80.0
10	NaN	NaN	英語	90.0

步驟3：刪除掉全是空值的列

studf.dropna(axis="columns",how='all',inplace=True)

studf

姓名科目分數

0 小明語文 85.0

1 NaN 數學 80.0

2 NaN 英語 90.0

3 NaN NaN NaN

4 小王語文 85.0

5 NaN 數學 NaN

6 NaN 英語 90.0

7 NaN NaN NaN

8 小剛語文 85.0

9 NaN 數學 80.0

10 NaN 英語 90.0

	姓名	科目	分數
0	小明	語文	85.0
1	NaN	數學	80.0
2	NaN	英語	90.0
3	NaN	NaN	NaN
4	小王	語文	85.0
5	NaN	數學	NaN
6	NaN	英語	90.0
7	NaN	NaN	NaN
8	小剛	語文	85.0
9	NaN	數學	80.0
10	NaN	英語	90.0

步驟4：刪除掉全是空值的行

studf.dropna(axis="index",inplace=True)

studf

姓名科目分數

0 小明語文 85.0

1 NaN 數學 80.0

2 NaN 英語 90.0

4 小王語文 85.0

5 NaN 數學 NaN

6 NaN 英語 90.0

8 小剛語文 85.0

9 NaN 數學 80.0

10 NaN 英語 90.0

	姓名	科目	分數
0	小明	語文	85.0
1	NaN	數學	80.0
2	NaN	英語	90.0
4	小王	語文	85.0
5	NaN	數學	NaN
6	NaN	英語	90.0
8	小剛	語文	85.0
9	NaN	數學	80.0
10	NaN	英語	90.0

步驟5：將分數列為空的填充為0分

studf.fillna({"分數":0})

姓名科目分數

0 小明語文 85.0

1 NaN 數學 80.0

2 NaN 英語 90.0

4 小王語文 85.0

5 NaN 數學 0.0

6 NaN 英語 90.0

8 小剛語文 85.0

9 NaN 數學 80.0

10 NaN 英語 90.0

	姓名	科目	分數
0	小明	語文	85.0
1	NaN	數學	80.0
2	NaN	英語	90.0
4	小王	語文	85.0
5	NaN	數學	0.0
6	NaN	英語	90.0
8	小剛	語文	85.0
9	NaN	數學	80.0
10	NaN	英語	90.0

# 等同於
studf.loc[:,'分數'] = studf['分數'].fillna(0)

studf

姓名科目分數

0 小明語文 85.0

1 NaN 數學 80.0

2 NaN 英語 90.0

4 小王語文 85.0

5 NaN 數學 0.0

6 NaN 英語 90.0

8 小剛語文 85.0

9 NaN 數學 80.0

10 NaN 英語 90.0

	姓名	科目	分數
0	小明	語文	85.0
1	NaN	數學	80.0
2	NaN	英語	90.0
4	小王	語文	85.0
5	NaN	數學	0.0
6	NaN	英語	90.0
8	小剛	語文	85.0
9	NaN	數學	80.0
10	NaN	英語	90.0

步驟6：將姓名的缺失值填充

使用前面的有效值填充，用ffill：forward fill

studf.loc[:,'姓名'] = studf['姓名'].fillna(method="ffill")

studf

姓名科目分數

0 小明語文 85.0

1 小明數學 80.0

2 小明英語 90.0

4 小王語文 85.0

5 小王數學 0.0

6 小王英語 90.0

8 小剛語文 85.0

9 小剛數學 80.0

10 小剛英語 90.0

	姓名	科目	分數
0	小明	語文	85.0
1	小明	數學	80.0
2	小明	英語	90.0
4	小王	語文	85.0
5	小王	數學	0.0
6	小王	英語	90.0
8	小剛	語文	85.0
9	小剛	數學	80.0
10	小剛	英語	90.0

步驟7：將清洗好的excel儲存

studf.to_excel("./datas/student_excel/student_excel_clean.xlsx",index=False)

總結

以上就是我在處理客戶端真實IP的方法，希望本文的內容對大家的學習或者工作具有一定的參考學習價值，謝謝大家對我們的支援。

Python Pandas對缺失值的處理方法

Python Pandas對缺失值的處理方法

簡單瞭解Pandas缺失值處理方法

6-Pandas之缺失值處理

pandas之缺失值處理

pandas中read_csv的缺失值處理方式

Pandas系列教程（6）Pandas缺失值處理

利用Python pandas對Excel進行合併的方法示例

【Python】【資料分析】缺失值處理——插值

python異常值處理箱型圖_Python資料處理：異常值處理方法之3原則

Pandas中缺失值/NaN值/空值的處理

Pandas 資料清洗缺失值處理

python缺失值處理

python常用資料重複項處理方法

Python程式暫停的正常處理方法

python計算波峰波谷值的方法（極值點）

Python Pandas 對列/行進行選擇，增加，刪除操作

python右對齊的例項方法

Python pandas對excel的操作實現示例

python資料分析（八） python pandas--series和dataframe的方法，排序，統計

3.5.3 資料排序；重複數值、缺失值處理

Python Pandas對缺失值的處理方法

相關推薦