DataFrame(7):資料去重

阿新 • • 發佈：2022-01-29

“去重”通過字面意思不難理解，就是刪除重複的資料。在一個數據集中，找出重複的資料刪並將其刪除，最終只儲存一個唯一存在的資料項，這就是資料去重的整個過程。刪除重複資料是資料分析中經常會遇到的一個問題。通過資料去重，不僅可以節省記憶體空間，提高寫入效能，還可以提升資料集的精確度，使得資料集不受重複資料的影響。

Panda DataFrame 物件提供了一個數據去重的函式drop_duplicates()，本節對該函式的用法做詳細介紹。

函式格式

drop_duplicates()函式的語法格式如下：

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

引數說明如下：

subset：表示要進去重的列名，預設為 None。
keep：有三個可選引數，分別是 first、last、False，預設為 first，表示只保留第一次出現的重複項，刪除其餘重複項，last 表示只保留最後一次出現的重複項，False 則表示刪除所有重複項。
inplace：布林值引數，預設為 False 表示刪除重複項後返回一個副本，若為 Ture 則表示直接在原資料上刪除重複項。

實際應用

首先建立一個包含有重複值的 DataFrame 物件，如下所示：

import pandas as pd
data={
'A':[1,0,1,1],
'B':[0,2,5,0],
 
'C':[4,0,4,4],
'D':[1,0,1,1]
}
df=pd.DataFrame(data=data)
print(df)

輸出結果：

1) 預設保留第一次出現的重複項

import pandas as pd
data={
  
    'A':[1,0,1,1],
    'B':[0,2,5,0],
    'C':[4,0,4,4],
    'D':[1,0,1,1]
}
df=pd.DataFrame(data=data)
#預設保留第一次出現的重複項
df.drop_duplicates()

輸出結果：

2) keep=False刪除所有重複項

import pandas as pd
data={
'A':[1,0,1,1],
'B':[0,2,5,0],
'C':[4,0,4,4],
'D':[1,0,1,1]
}
df=pd.DataFrame(data=data)
#預設保留第一次出現的重複項
df.drop_duplicates(keep=False)

輸出結果：

  A B C D
1 0 2 0 0
2 1 5 4 1

3) 根據指定列標籤去重

import pandas as pd
data={
'A':[1,3,3,3],
'B':[0,1,2,0],
'C':[4,5,4,4],
'D':[3,3,3,3]
}
df=pd.DataFrame(data=data)
print(df)
df.drop_duplicates(subset=['B'],keep=False)
print(df)
#去除所有重複項，對於B列來說兩個0是重複項
df1=df.drop_duplicates(subset=['B'],keep=False)
print(df1)
df.drop_duplicates(subset=['B'],keep=False,inplace=True)
print(df)
#簡寫，省去subset引數
#df.drop_duplicates(['B'],keep=False,inplace=True) 
print(df1)

輸出結果：

  A  B  C  D
0  1  0  4  3
1  3  1  5  3
2  3  2  4  3
3  3  0  4  3
    A  B  C  D
0  1  0  4  3
1  3  1  5  3
2  3  2  4  3
3  3  0  4  3
   A  B  C  D
1  3  1  5  3
2  3  2  4  3
   A  B  C  D
1  3  1  5  3
2  3  2  4  3
   A  B  C  D
1  3  1  5  3
2  3  2  4  3

從上述示例可以看出，刪除重複項後，行標籤使用的數字是原來的，並沒有從 0 重新開始，那麼我們應該怎麼從 0 重置索引呢？Pandas 提供的 reset_index() 函式會直接使用重置後的索引。如下所示：

import pandas as pd

data={
   
    'A':[1,3,3,3],
    'B':[0,1,2,0],
    'C':[4,5,4,4],
    'D':[3,3,3,3]
}
df=pd.DataFrame(data=data)
#去除所有重複項，對於B來說兩個0是重複項
df=df.drop_duplicates(subset=['B'],keep=False)
#重置索引，從0重新開始
df.reset_index(drop=True)

輸出結果：

  A B C D
0 3 1 5 3
1 3 2 4 3

4) 指定多列同時去重

建立一個 DataFrame 物件，如下所示：

import numpy as np
import pandas as pd
df = pd.DataFrame({'Country ID':[1,1,2,12,34,23,45,34,23,12,2,3,4,1],
'Age':[12,12,15,18, 19, 25, 21, 25, 25, 18, 25,12,32,18],
'Group ID':['a','z','c','a','b','s','d','a','b','s','a','d','a','f']})
#last只保留最後一個重複項
df.drop_duplicates(['Age','Group ID'],keep='last')

輸出結果：

  Country ID Age Group ID
0   1         12      a
1   1         12      z
2   2         15      c
3   3         18      a
4   4         19      b
5   3         25      s
6   4         21      d
8   2         25      b
9   1         18      s
10  2         25      a
11  3         12      d
12  4         32      a
13  1         18      f

上述資料集中，第 7 行、第 10 行對應的列標籤資料相同，我們使用引數值“last”保留最後一個重複項，也就是第 10 行資料。

DataFrame(7):資料去重

函式格式

實際應用

1) 預設保留第一次出現的重複項

2) keep=False刪除所有重複項

3) 根據指定列標籤去重

4) 指定多列同時去重

DataFrame(7):資料去重

Django ORM實現按天獲取資料去重求和例子

資料去重Distinct，IEqualityComparer，IEquatable

List資料去重的五種有效方法

oracle over結合row_number分割槽進行資料去重處理

前端面試題7----陣列去重

數組裡的多個物件資料去重

陣列中字串資料push相同的資料去重 $.unique()

sql left join 去重_混入了一些奇怪的東西？SQL小技巧之資料去重

List 資料去重五種方法

python大量資料去重

極其簡單的資料庫資料去重方式

List集合資料去重

爬蟲資料去重問題

速戰速決 Python - python 第三方庫（pandas）: DataFrame連線，去重，空值處理

PostgreSQL 資料去重大法

MySQL資料表合併去重的簡單實現方法

JS陣列屬性去重並校驗重複資料

Python DataFrame使用drop_duplicates()函式去重(保留重複值，取重複值)

python pandas dataframe 去重函式的具體使用

DataFrame(7):資料去重

函式格式

實際應用

1) 預設保留第一次出現的重複項

2) keep=False刪除所有重複項

3) 根據指定列標籤去重

4) 指定多列同時去重

相關推薦