1. 程式人生 > >pandas中關於DataFrame去掉重複行和NaN行

pandas中關於DataFrame去掉重複行和NaN行

1.去掉重複行

使用pandas自帶的drop_duplicates方法:

norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep='first')
#去掉UNIT_ID和KPI_ID列中重複的行,並保留重複出現的行中第一次出現的行

補充:
當keep=False時,就是去掉所有的重複行
當keep=‘first’時,就是保留第一次出現的重複行
當keep=’last’時就是保留最後一次出現的重複行。
(注意,這裡的引數是字串,要加引號!!!)

2.去掉NaN行

使用pandas自帶的dropna()方法:

#刪除表中某行全部為NaN的行
nonan_df = df.dropna(axis=0, how='all')

#刪除表中某行含有任何NaN的行
nonan_df = df.dropna(axis=0, how='any')  

補充:
刪除行的引數axis = 0
刪除列的引數axis = 1