1. 程式人生 > 其它 >pandas中DataFrame如何檢測重複值

pandas中DataFrame如何檢測重複值

DataFrame.duplicated(subset=None, keep='first')

subset:如果你認為幾個欄位重複,則資料重複,就把那幾個欄位以列表形式放到subset後面。預設是所有欄位重複為重複資料。

keep:

  • 預設為’first’ ,也就是如果有重複資料,則第一條出現的定義為False,後面的重複資料為True。
  • 如果為’last’,也就是如果有重複資料,則最後一條出現的定義為False,後面的重複資料為True。
  • 如果為False,則所有重複的為True

下面舉例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum'
, 'Indomie', 'Indomie', 'Indomie'], 'style': ['cup', 'cup', 'cup', 'pack', 'pack'], 'rating': [4, 4, 3.5, 15, 5] }) df

在這裡插入圖片描述

# 預設為keep="first",第一條重複的為False,後面重複的為True
# 一般不會設定keep,保持keep為預設值。
df.duplicated()

結果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最後一條重複的為False,後面重複的為True
df.duplicated(keep="last") 結果 0 True 1 False 2 False 3 False 4 False dtype: bool # keep=False,,所有重複的為True df.duplicated(keep=False) 結果 0 True 1 True 2 False 3 False 4 False dtype: bool # sub是子,subset是子集 # 標記只要brand重複為重複值。 df.duplicated(subset='brand') 結果 0
False 1 True 2 False 3 True 4 True dtype: bool # 只要brand重複brand和style重複的為重複值。 df.duplicated(subset=['brand','style']) 結果 0 False 1 True 2 False 3 False 4 True dtype: bool # 顯示重複記錄,通過布林索引 df[df.duplicated()]

在這裡插入圖片描述

# 查詢重複值的個數。
df.duplicated().sum()

結果
1