python pandas dataframe 去重函式的具體使用

阿新 • • 發佈：2020-07-21

今天筆者想對pandas中的行進行去重操作，找了好久，才找到相關的函式

先看一個小例子

from pandas import Series,DataFrame
 
data = DataFrame({'k': [1,1,2,2]})
 
print data
 
IsDuplicated = data.duplicated()
 
print IsDuplicated
print type(IsDuplicated)
 
data = data.drop_duplicates()
print data

執行結果是：

k
0 1
1 1
2 2
3 2

0 False
1 True
2 False

3 True

k
0 1
2 2

DataFrame的duplicated方法返回一個布林型Series,表示各行是否重複行。

而 drop_duplicates方法，它用於返回一個移除了重複行的DataFrame

這兩個方法會判斷全部列，你也可以指定部分列進行重複項判段。

drop_duplicates根據資料的不同情況及處理資料的不同需求，通常會分為兩種情況，一種是去除完全重複的行資料，另一種是去除某幾列重複的行資料，就這兩種情況可用下面的程式碼進行處理。

1. 去除完全重複的行資料

data.drop_duplicates(inplace=True)

2. 去除某幾列重複的行資料

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

subset：列名，可選，預設為None
- keep： {‘first',‘last',False},預設值 ‘first'
- first：保留第一次出現的重複行，刪除後面的重複行。
- last：刪除重複項，除了最後一次出現。
False：刪除所有重複項。
inplace：布林值，預設為False，是否直接在原資料上刪除重複項或刪除重複項後返回副本。（inplace=True表示直接在原來的DataFrame上刪除重複項，而預設值False表示生成一個副本。）

例如，希望對名字為k2的列進行去重，

data.drop_duplicates(['k2'])

到此這篇關於python pandas dataframe 去重函式的具體使用的文章就介紹到這了,更多相關python pandas dataframe 去重函式內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

python pandas dataframe 去重函式的具體使用

今天筆者想對pandas中的行進行去重操作，找了好久，才找到相關的函式先看一個小例子

python pandas.DataFrame.loc函式使用詳解

官方函式 DataFrame.loc Access a group of rows and columns by label(s) or a boolean array. .loc[] is primarily label based,but may also be used with a boolean array.

Python pandas.DataFrame 找出有空值的行

0.摘要 pandas中DataFrame型別中，找出所有有空值的行，可以使用.isnull()方法和.any()方法。

淺談python元素如何去重,去重後如何保持原來元素的順序不變

python列表元素去重後如何保持原來的順序不變原列表： list1 = [1,2,1,4,9,3,5,6,7,8,0]

詳解pandas.DataFrame.plot() 畫圖函式

首先看官網的DataFrame.plot( )函式 DataFrame.plot(x=None,y=None,kind=\'line\',ax=None,subplots=False,sharex=None,sharey=False,layout=None,figsize=None,use_index=True,title=None,grid=None,legend=True,

python pandas DataFrame 關於重複索引取值的一些坑

情況：重複索引與非重複索引的取值返回型別是不一樣的。 dfa = pd.DataFrame(np.random.randn(6, 4),index=list(\'aacdeb\'),columns=list(\'ABCD\'))

sql 逗號分隔的字串去重函式

sqlserver 函式： Create function [dbo].[GetDistinct](@str varchar(1000)) returns varchar(1000) as BEGIN

python pandas DataFrame.info() 列印到檔案中

技術標籤：python @創建於：2021.01.07 @修改於：2021.01.07 文章目錄 1、背景2、info()介紹3、解決辦法4、參考連結

python大量資料去重

技術標籤：pythonexcelpython大資料 python大量資料去重實現功能：實現excel表中篩選重複項，對重複項排序取第一個保留。由於excel表處理大批量資料的時候耗時比較久，且容易卡死，十幾萬的資料便需要幾十個小時

python pandas Dataframe增加一列遇到A value is trying to be set on a copy of a slice from a DataFrame.

技術標籤：pythonpython大資料pandasDataframe df2是Dataframe資料，直接在其上面增加一列，使用如下程式碼：

Postgresql去重函式distinct的用法說明

在專案中我們常會對資料進行去重處理，有時候會用in或者EXISTS函式。或者通過group by也是可以實現查重

python pandas dataframe修改已有資料的值

import pandas as pd datas = [ [1,2,3], [2,3,4], [3,4,5] ] df = pd.DataFrame(datas,index=[\'a\',\'b\',\'c\'],columns=[\'aa\',\'bb\',\'cc\'])

pandas之去重

“去重”通過字面意思不難理解，就是刪除重複的資料。在一個數據集中，找出重複的資料刪並將其刪除，最終只儲存一個唯一存在的資料項，這就是資料去重的整個過程。刪除重複資料是資料分析中經常會遇到的一個問題。通

Python DataFrame使用drop_duplicates()函式去重(保留重複值，取重複值)

摘要在進行資料分析時，我們經常需要對DataFrame去重，但有時候也會需要只保留重複值。

速戰速決 Python - python 第三方庫（pandas）: DataFrame連線，去重，空值處理

速戰速決 Python - python 第三方庫（pandas）: DataFrame連線，去重，空值處理速戰速決 Python https://github.com/webabcd/PythonSample

python對二維陣列統計某一行的去重計數_Python 資料分析：初識 Pandas

技術標籤：python對二維陣列統計某一行的去重計數點選上方藍字關注，學習Python

【Python Pandas】合併，正則替換，去重，排序

import pandas as pd # 讀取excel檔案，並儲存為DataFrame df1 = pd.read_excel(r\"C:\\Users\\admin\\Desktop\\不規則動詞\\不規則動詞_irregular verbs\\Sheet1.xlsx\",

python redis連線有序集合去重的程式碼

python redis連線有序集合去重的程式碼如下所述： # -*- coding: utf-8 -*- import redis from constant import redis_ip,redis_db,redis_pw,redis_zset_name

Python pandas自定義函式的使用方法示例

本文例項講述了Python pandas自定義函式的使用方法。分享給大家供大家參考，具體如下：

利用python中集合的唯一性實現去重

什麼是集合　　　　1.集合是一個可變容器　　　　2.集合內的資料物件都是唯一的(不能重複)

python pandas dataframe 去重函式的具體使用

相關推薦