pandas中DataFrame如何檢測重複值
阿新 • • 發佈:2021-05-27
DataFrame.duplicated(subset=None, keep='first')
subset:如果你認為幾個欄位重複,則資料重複,就把那幾個欄位以列表形式放到subset後面。預設是所有欄位重複為重複資料。
keep:
- 預設為’first’ ,也就是如果有重複資料,則第一條出現的定義為False,後面的重複資料為True。
- 如果為’last’,也就是如果有重複資料,則最後一條出現的定義為False,後面的重複資料為True。
- 如果為False,則所有重複的為True
下面舉例
df = pd.DataFrame({
'brand': ['Yum Yum', 'Yum Yum' , 'Indomie', 'Indomie', 'Indomie'],
'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
'rating': [4, 4, 3.5, 15, 5]
})
df
# 預設為keep="first",第一條重複的為False,後面重複的為True
# 一般不會設定keep,保持keep為預設值。
df.duplicated()
結果
0 False
1 True
2 False
3 False
4 False
dtype: bool
# keep="last",,最後一條重複的為False,後面重複的為True
df.duplicated(keep="last")
結果
0 True
1 False
2 False
3 False
4 False
dtype: bool
# keep=False,,所有重複的為True
df.duplicated(keep=False)
結果
0 True
1 True
2 False
3 False
4 False
dtype: bool
# sub是子,subset是子集
# 標記只要brand重複為重複值。
df.duplicated(subset='brand')
結果
0 False
1 True
2 False
3 True
4 True
dtype: bool
# 只要brand重複brand和style重複的為重複值。
df.duplicated(subset=['brand','style'])
結果
0 False
1 True
2 False
3 False
4 True
dtype: bool
# 顯示重複記錄,通過布林索引
df[df.duplicated()]
# 查詢重複值的個數。
df.duplicated().sum()
結果
1