Pandas:移除重複資料
阿新 • • 發佈:2019-01-04
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
一、unique:只能應該與Series
s = Series(['a','b','a','c','b'])
s.unique()
array(['a', 'b', 'c'], dtype=object)
二、drop_duplicates
1.Series
s.drop_duplicates()
0 a
1 b
3 c
dtype: object
2.DataFrame
df = DataFrame({'水果' :['蘋果','草莓','蘋果'],
'價格':[3,9,3],
'數量':[5,6,5]})
print(df.drop_duplicates())
價格 數量 水果
0 3 5 蘋果
1 9 6 草莓
按指定列去重複
print(df.drop_duplicates('水果'))
價格 數量 水果
0 3 5 蘋果
1 9 6 草莓
三、duplicated:判斷行是否重複
df.duplicated()
0 False 1 False 2 True dtype: bool