1. 程式人生 > >pandas.DataFrame去重

pandas.DataFrame去重

pandas.DataFrame 去重

去重的方式:

樣本資料

In [1]: import pandas as pd

In [2]:  df = pd.DataFrame({'colA' : list('AABCA'), 'colB' : list('AABDA'),'col
   ...: C' : [100,100,30,50,20], 'colD': [100,100,60,80,50]})

In [3]: df
Out[3]:
  colA colB  colC  colD
0    A    A   100   100
1    A    A   100   100
2    B    B    30    60
3    C    D    50
80 4 A A 20 50

1. 按全量欄位去重

In [4]: df2 = df.drop_duplicates()

In [5]: df2
Out[5]:
  colA colB  colC  colD
0    A    A   100   100
2    B    B    30    60
3    C    D    50    80
4    A    A    20    50

2. 按指定欄位去重

In [6]: df3 = df.drop_duplicates(['colA', 'colB']);df3
Out[6]:
  colA colB  colC  colD
0
A A 100 100 2 B B 30 60 3 C D 50 80

如有解釋不盡不處,請參閱官方文件

相關推薦

python pandas dataframe 函式

轉自:https://blog.csdn.net/xinxing__8185/article/details/48022401   今天筆者想對pandas中的行進行去重操作,找了好久,才找到相關的函式 先看一個小例子 from pandas import Series,

pandas.DataFrame

pandas.DataFrame 去重 去重的方式: 樣本資料 In [1]: import pandas as pd In [2]: df = pd.DataFrame({'colA' : lis

Pandas玩轉資料(七) -- Series和DataFrame

資料分析彙總學習 import numpy as np import pandas as pd from pandas import Series, DataFrame df = pd.read

pandas資料處理實踐三(DataFrame.apply資料預處理、DataFrame.drop_duplicates

通過apply進行資料的預處理: DataFrame.apply(func,axis = 0,broadcast = None,raw = False,reduce = None,result_type = None,args =(),** kwds ) In [70

pandas DataFrame 中按條件篩選或後重新定義連續的index

在DataFrame中進行條件篩選或者去重後index將變得不連續,那麼如何重設連續的index?data_train = data_train.reset_index(drop=True)#重設索引轉載請註明:【轉】http://blog.csdn.net/htbeker/

pandasdataframe空字串處理

參考:dataframe.replace官方文件 1 問題 在處理資料的時候遇到一個問題是,明明某些列有很多是空的,但是在python裡用dataframe.info統計出來並不是空的,就很奇怪,排查之後發現在我的excel表裡這些資料看起來是空的值,但其實是一個空格。

pandas資料去除某些列,合併列,,重建索引

def select_data2collision(): data1 = data.iloc[:,45:] #取45列以後的資料 data2 = pd.concat([data["CASEID"],data1], axis=1) #把caseid的列合併進去 print(d

python使用pandas模組實現檔案讀取、字串處理、排序、excel生成

最近學習python,用python實現一個小需求,最後寫入excel使用到pandas模組: 某中學學生在500米短跑訓練比賽中的資料,體育老師把學生成績結果記錄在檔案中(studentdata.txt),記錄格式如下: 卡納瓦, 2001-11-8,2:27,2:33,

Pandas 資料框增、刪、改、查、、抽樣基本操作

總括 pandas的索引函式主要有三種: loc 標籤索引,行和列的名稱 iloc 整型索引(絕對位置索引),絕對意義上的幾行幾列,起始索引為0 ix 是 iloc 和 loc的合體 at是loc的快捷方式 iat是iloc的快捷方式 建立測試資料

pandas中的資料處理

資料去重可以使用duplicated()和drop_duplicates()兩個方法。 DataFrame.duplicated(subset = None,keep =‘first’ )返回boole

pandas資料處理(一)pymongo資料庫量大插入時速度慢

  之前寫指令碼爬鬥魚主播資訊時用了一個pymongo的去重語句 db['host_info'].update({'主播': data['主播'], '時間': data['時間']}, {'$set': data}, True):   這句話以主播和時間為索引判斷資料庫中如果沒有同一主播同一時

Dataframe 如何

python中的pandas模組中對重複資料去重步驟:1)利用DataFrame中的duplicated方法返回一個布林型的Series,顯示各行是否有重複行,沒有重複行顯示為FALSE,有重複行顯示為TRUE;2)再利用DataFrame中的drop_duplicates方

python、pandas檔案合併、資料

目錄下有如圖60個txt檔案,每個txt檔案裡的資料大概有7000萬行目的:把每個txt檔案裡的資料去重後合併60個檔案為一個總檔案,然後把總檔案裡的資料按第一列、第二列分組第三列求去重後出現的次數每個檔案的內容如下:程式碼如下:# -*- coding:utf-8 -*-

【資料平臺】pandas按條件

場景:按 A 列去重,保留 B 列中 最小的一行資料。 # -*- coding: utf-8 -*- ''' @author: user ''' import pandas as pd data

pandas基礎屬性方法隨機整理(三)--- 描述統計/計數/分組排序

分組和排序 Series.value_counts() & drop_duplicates() 資料集: baby_names.info() <class 'pandas.core.frame.DataFrame'> Rang

Pandas 同元素多列

#-*- coding: utf-8 -*- data = {'G1':['a','b','c','d','e'],'G2':['b','a','d','c','f']} data = pd.DataFrame(data) data['G3'] = data['G1'] + '|' + data['G2'

Pandas資料基礎(索引、排序、連線、、分箱、異常處理)

使用pandas,首先匯入包: from pandas import Series, DataFrame import pandas as pd 123123 一、建立Series,DataFrame 1,建立Series a,通過列表建立 obj = Series([4, 7,

js方法

func clas 原型 nbsp 裝逼 {} 一點 pre for function remove(array){ var obj={}; newarray=[]; for(var i in array){ console.log(i); var arg=array[i

數組值-小技巧

!= 獲取 key 鍵值 () 小技巧 == 利用 tmp 把值存為數組的鍵,利用鍵的特性來進行對值的去重,然後再用array_keys獲取鍵值保存為新的數組即可達到去重的效果 $tmp_arr = array(); foreach ($key as $val) { $t

JS數組

itl ret light index var head logs this lang <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <t