Pandas標記刪除重複記錄

阿新 • • 發佈：2018-12-27

Pandas提供了duplicated、Index.duplicated、drop_duplicates函式來標記及刪除重複記錄

duplicated函式用於標記Series中的值、DataFrame中的記錄行是否是重複，重複為True，不重複為False

pandas.DataFrame.duplicated(self, subset=None, keep='first')

pandas.Series.duplicated(self, keep='first')

其中引數解釋如下：

subset：用於識別重複的列標籤或列標籤序列，預設所有列標籤

keep=‘frist’：除了第一次出現外，其餘相同的被標記為重複

keep='last'：除了最後一次出現外，其餘相同的被標記為重複

keep=False：所有相同的都被標記為重複

import numpy as np
import pandas as pd 
#標記DataFrame重複例子
df = pd.DataFrame({'col1': ['one', 'one', 'two', 'two', 'two', 'three', 'four'], 'col2': [1, 2, 1, 2, 1, 1, 1],
                   'col3':['AA','BB','CC','DD','EE','FF','GG']},index=['a', 'a', 'b', 'c', 'b', 'a','c'])
#duplicated(self, subset=None, keep='first')
#根據列名標記
#keep='first'
df.duplicated()#預設所有列，無重複記錄
df.duplicated('col1')#第二、四、五行被標記為重複
df.duplicated(['col1','col2'])#第五行被標記為重複
#keep='last'
df.duplicated('col1','last')#第一、三、四行被標記重複
df.duplicated(['col1','col2'],keep='last')#第三行被標記為重複
#keep=False
df.duplicated('col1',False)#Series([True,True,True,True,True,False,False],index=['a','a','b','c','b','a','c'])
df.duplicated(['col1','col2'],keep=False)#在col1和col2列上出現相同的，都被標記為重複
type(df.duplicated(['col1','col2'],keep=False))#pandas.core.series.Series
#根據索引標記
df.index.duplicated()#預設keep='first',第二、五、七行被標記為重複
df.index.duplicated(keep='last')#第一、二、三、四被標記為重複
df[df.index.duplicated()]#獲取重複記錄行
df[~df.index.duplicated('last')]#獲取不重複記錄行
#標記Series重複例子
#duplicated(self, keep='first')
s = pd.Series(['one', 'one', 'two', 'two', 'two', 'three', 'four'] ,index= ['a', 'a', 'b', 'c', 'b', 'a','c'],name='sname')
s.duplicated()
s.duplicated('last')
s.duplicated(False)
#根據索引標記
s.index.duplicated()
s.index.duplicated('last')
s.index.duplicated(False)

drop_duplicates函式用於刪除Series、DataFrame中重複記錄，並返回刪除重複後的結果

pandas.DataFrame.drop_duplicates(self, subset=None, keep='first', inplace=False)

pandas.Series.drop_duplicates(self, keep='first', inplace=False)

#刪除DataFrame重複記錄例子
#drop_duplicates(self, subset=None, keep='first', inplace=False)
df.drop_duplicates()
df.drop_duplicates('col1')#刪除了df.duplicated('col1')標記的重複記錄
df.drop_duplicates('col1','last')#刪除了df.duplicated('col1','last')標記的重複記錄
df1.drop_duplicates(['col1','col2'])#刪除了df.duplicated(['col1','col2'])標記的重複記錄
df.drop_duplicates('col1',keep='last',inplace=True)#inplace=True表示在原DataFrame上執行刪除操作
df.drop_duplicates('col1',keep='last',inplace=False)#inplace=False返回一個副本
#刪除Series重複記錄例子
#drop_duplicates(self, keep='first', inplace=False)
s.drop_duplicates()

Pandas標記刪除重複記錄

Pandas提供了duplicated、Index.duplicated、drop_duplicates函式來標記及刪除重複記錄 duplicated函式用於標記Series中的值、DataFrame中的記錄行是否是重複，重複為True，不重複為False pandas.D

MySQL表上億級資料量實現刪除重複記錄

上週從資料採集部門拿到一批400份的json檔案,每個檔案裡30w+的json物件,物件裡有uid,對重複的uid,需要去重下. 電腦配置4核8G 廢話不多說,直接上乾貨. 1.建立表datatest5 CREATE TABLE `datatest5` (

Oracle刪除重複記錄只保留一條資料的幾種方法

1、查詢表中多餘的重複記錄，重複記錄是根據單個欄位（peopleId）來判斷 SELECT * FROM people WHERE peopleid IN ( SELECT peopleid FROM people GROUP BY peopleid

python查詢/刪除重複記錄

1：查詢重複項 df.duplicated()返回的是一個布林型Series（返回值是True或者False），表示各行是否是重複行，可以在（）內新增列名來查詢某一列是否有重複值，第一個出現的值為False，後邊再出現相同的行為True 完全重複的專案 df.duplicated()&nbs

mysql中刪除重複記錄，並保留重複資料中的一條資料的SQL語句理解

正好想寫一條刪除重複語句並保留一條資料的SQL，網上查了一部分資料寫的很詳細，但還是在這裡寫下自己的理解，以遍後續學習。如下：表字段和資料： SQL語句： DELETE FROM `user` WHERE id NOT IN(SELECT * FROM(

記一次mysql去重查詢與刪除重複記錄

查詢： select *,id,count(*) as count from artist group by id having count>1; 刪除（刪除order_id值大的）： delete from artist where id in( SELECT * from

PostgreSQL快速刪除重複記錄

delete from public."YH_XQ" where ctid =ANY(ARRAY(select ctid from (select row_number()over(PARTITION BY lj_id),ctid from public."YH_XQ") x

Excel.VBA 快速刪除重複記錄

日常工作中的工作表中經常會有重複記錄，清除這些重複記錄是一個繁瑣的工作，即使在排序之後再進行手工篩選，也經常會出現遺漏，而使用VBA程式碼就可以快速準確地刪除重複記錄。待處理資料如下：列1列2111223233536 功能實現步驟如下： 1、快捷鍵Alt+F11開啟VBA介面，開啟"插入"選單，插入模組

mysql刪除重複記錄，保留最小id的理解

我有一張資料表sw_goods，裡面儲存了goods_id,goods_name欄位,其中goods_id欄位為自增主鍵，goods_name欄位裡面有重複的記錄。我希望刪除goods_name欄

postgresql刪除重複記錄的一些相關sql語句

自己在做postgresql中作的正確的語法，SQL語句原始表test_sql 1、查詢重複欄位的重複數select distinct (f1,f2,f3), count(*) from test_sql group by(f1,f2,f3) 結果 2、select di

Mysql語句查詢指定重複記錄和刪除重複記錄僅保留一條【親測可以】

對於髒資料，除了通過程式來修復，也可以通過mysql本身來修復。問題一：查詢指定組合欄位的重複記錄SELECT * FROM tb_teacher a WHERE (a.user_id, a.cr

ORACLE查詢刪除重複記錄三種方法

比如現在有一人員表（表名：peosons）若想將姓名、身份證號、住址這三個欄位完全相同的記錄查詢出來複製程式碼程式碼如下: select p1.* from persons p1,persons p2 where p1.id<>p

用SQL語句刪除重複記錄的四種好方法

DECLARE @a int SET @a = 1 DECLARE @t TABLE( id int IDENTITY, a int, b int) DECLARE @dt datetime, @loop int, @id int SET @lo

SQL Server 刪除重複記錄，只保留一條記錄

有張表格之前沒有設計關鍵欄位的唯一約束，導致有時候執行插入操作時不小心執行了多次就出現了重複記錄，後面重新加入唯一約束，由於已經有了重複記錄，無法新增，需要先刪除重複記錄。看了網上的一些刪除重複記錄的方法（好像都是轉載於同一篇文章，至少看了

mysql刪除重複記錄只保留一條（一句簡單sql）

案例：目的：根據name和class分組，將ceshi表中相同的資料刪除只保留id最小的那一條。 sql語句如下： DELETE FROM ceshi WHERE id NOT IN (SE

Oracle 快速刪除重複記錄

1. delete from DJ_SKSKJ where rowid in (select max(rowid) from DJ_SKSKJ where jddm = '01'

快速刪除重複記錄(Oracle)

　( 2）通過唯一rowid實現刪除重複記錄.在Oracle中，每一條記錄都有一個rowid，rowid在整個資料庫中是唯一的，rowid確定了每條記錄是在Oracle中的哪一個資料檔案、塊、行上。在重複的記錄中，可能所有列的內容都相同，但rowid不會相同，所以只要確定出

db2中刪除重複記錄的sql語句

1、查詢表中多餘的重複記錄，重複記錄是根據單個欄位（peopleId）來判斷 select * from people where peopleId in (select peopleId from people group by peopleId having coun

【mysql】mysql刪除重複記錄並且只保留一條

最近在做題庫系統，由於在題庫中添加了重複的試題，所以需要查詢出重複的試題，並且刪除掉重複的試題只保留其中1條，以保證考試的時候抽不到重複的題。首先寫了一個小的例子：單個欄位的操作這是資料庫中的表：分組： Select 重複欄位 From 表 Grou

SQL Server 批量刪除重複記錄（批量、快速、安全）

關鍵字：ROW_NUMBER（或RANK） partition BY 利用分組排序，可實現快速、安全、批量的對重複記錄進行刪除，示例：建立測試表 CREATE TABLE [dbo].[T_C

Pandas標記刪除重複記錄

相關推薦