python查詢/刪除重複記錄
阿新 • • 發佈:2018-11-15
1:查詢重複項
df.duplicated()返回的是一個布林型Series(返回值是True或者False),表示各行是否是重複行,可以在()內新增列名來查詢某一列是否有重複值,第一個出現的值為False,後邊再出現相同的行為True
完全重複的專案 df.duplicated() / 某一列重複df.duplicated('列名')
aa = [[1,2,3],[4,5,6],[1,2,3],[1,2,1]]
index = [0,1,2,3]
columns=['a','b','c']
df = pd.DataFrame(data=aa, index=index, columns=columns)
a | b | c | |
---|---|---|---|
0 | 1 | 2 | 3 |
1 | 4 | 5 | 6 |
2 | 1 | 2 | 3 |
3 | 1 | 2 | 1 |
df.duplicated()
0 False 1 False 2 True 3 False dtype: bool
df.duplicated('a')
0 False
1 False
2 True
3 True
dtype: bool
檢視重複的數量,返回結果為True都是前面出現過的
volume_summery[volume_summery.duplicated('order_item_id')==True].shape
2:刪除重複項
df.drop_duplicates()刪除完全重複的項,返回不重複的專案
a | b | c | |
---|---|---|---|
0 | 1 | 2 | 3 |
1 | 4 | 5 | 6 |
3 | 1 | 2 | 1 |
df.drop_duplicates(['列名']) 以該列為標準,刪除重複的專案,返回不重複的專案
a | b | c | |
---|---|---|---|
0 | 1 | 2 | 3 |
1 | 4 | 5 | 6 |