pandas去除重複值drop_duplicates問題

阿新 • • 發佈：2019-02-02

win10電腦環境下執行程式碼如下：

# 重複值處理
import pandas as pd # 匯入pandas庫

# 生成重複資料
data1 = ['a', 3]
data2 = ['b', 2]
data3 = ['a', 3]
data4 = ['c', 2]
df = pd.DataFrame([data1, data2, data3, data4], columns=['col1', 'col2'])
print (df)

# 判斷重複資料
isDuplicated = df.duplicated() # 判斷重複資料記錄
print (isDuplicated) # 列印輸出

# 刪除重複值
new_df1 = df.drop_duplicates() # 刪除資料記錄中所有列值相同的記錄

new_df2 = df.drop_duplicates(['col1']) # 刪除資料記錄中col1值相同的記錄
new_df3 = df.drop_duplicates(['col2']) # 刪除資料記錄中col2值相同的記錄
new_df4 = df.drop_duplicates(['col1', 'col2']) # 刪除資料記錄中指定列（col1/col2）值相同的記錄

print (new_df1) # 列印輸出
print (new_df2) # 列印輸出
print (new_df3) # 列印輸出
print (new_df4) # 列印輸出

正常的輸出結果應該是：

col1 clo2
0 a 3
1 b 2
2 c 2

3 a 3

0 False
1 False
2 False
3 True

dtype: bool

col1 clo2
0 a 3
1 b 2

3 c 2

col1 clo2
0 a 3
1 b 2

3 c 2

col1 clo2
0 a 3
1 b 2

3 a 3

但是我執行的時候出現的了一個錯誤，很是費解：

Traceback (most recent call last):
File "E:/Sublime Text/Sublime Text 3 中文版/01/重複值.py", line 22, in <module>
new_df3 = df.drop_duplicates(['col2']) # 刪除資料記錄中col2值相同的記錄
File "E:\PyCharm 2018.1.1\工作除錯檔案\venv\lib\site-packages\pandas\core\frame.py", line 4328, in drop_duplicates
duplicated = self.duplicated(subset, keep=keep)
File "E:\PyCharm 2018.1.1\工作除錯檔案\venv\lib\site-packages\pandas\core\frame.py", line 4378, in duplicated
raise KeyError(diff)

KeyError: Index(['col2'], dtype='object')

關鍵字錯誤，索引的問題。

pandas去除重複值drop_duplicates問題

# 重複值處理
import pandas as pd # 匯入pandas庫

# 生成重複資料
data1 = ['a', 3]
data2 = ['b', 2]
data3 = ['a', 3]
data4 = ['c', 2]
df = pd.DataFrame([data1, data2, data3, data4], columns=['col1', 'col2'])
print (df)

# 判斷重複資料
isDuplicated = df.duplicated() # 判斷重複資料記錄
print (isDuplicated) # 列印輸出

print (new_df1) # 列印輸出
print (new_df2) # 列印輸出
print (new_df3) # 列印輸出
print (new_df4) # 列印輸出

pandas去除重複值drop_duplicates問題

oracle查詢/去除重複值

weka學習（五）去除重複值

pandas 去除重複行

ArrayList類去除重複值

DISTINCT 返回唯一不同的值,去除重複值

pandas去除重複列

tp5分頁去除重複值

distinct去除重複值

根據list物件中某個欄位去除重複值

pandas dataframe去除重複資料pandas.DataFrame.drop_duplicates

去除List集合中的重複值（四種好用的方法）（基本資料型別可用）

Java：去除List集合中的重複值（四種好用的方法）

【python學習筆記】42：Pandas資料缺失值/異常值/重複值處理

Oracle去除重複(某一列的值重複),取最新(日期欄位最新)的一條資料

JQuery遍歷拼接字串，去除重複的值

pandas之算數運算和資料對齊--帶有重複值的軸索引

MySQLdistinct 去除查詢重複值的結果

去除List集合中的重複值（四種好用的方法）

Vector.LinkedList的特有功能 ArrayList去除集合中重複值的兩種方法

pandas去除重複值drop_duplicates問題

# 重複值處理import pandas as pd # 匯入pandas庫

# 生成重複資料data1 = ['a', 3]data2 = ['b', 2]data3 = ['a', 3]data4 = ['c', 2]df = pd.DataFrame([data1, data2, data3, data4], columns=['col1', 'col2'])print (df)

# 判斷重複資料isDuplicated = df.duplicated() # 判斷重複資料記錄print (isDuplicated) # 列印輸出

print (new_df1) # 列印輸出print (new_df2) # 列印輸出print (new_df3) # 列印輸出print (new_df4) # 列印輸出

相關推薦

# 重複值處理
import pandas as pd # 匯入pandas庫

# 生成重複資料
data1 = ['a', 3]
data2 = ['b', 2]
data3 = ['a', 3]
data4 = ['c', 2]
df = pd.DataFrame([data1, data2, data3, data4], columns=['col1', 'col2'])
print (df)

# 判斷重複資料
isDuplicated = df.duplicated() # 判斷重複資料記錄
print (isDuplicated) # 列印輸出

print (new_df1) # 列印輸出
print (new_df2) # 列印輸出
print (new_df3) # 列印輸出
print (new_df4) # 列印輸出