python大量資料去重

阿新 • • 發佈：2021-01-09

python大量資料去重

實現功能：實現excel表中篩選重複項，對重複項排序取第一個保留。由於excel表處理大批量資料的時候耗時比較久，且容易卡死，十幾萬的資料便需要幾十個小時，該指令碼可以在幾分鐘內快速處理完並一次性輸出資料，有效減少耗時及人力。供參考。

# -*- coding:utf-8 -*-

# 匯入pandas包並重命名為pd
import pandas as pd

# 讀取Excel中Sheet1中的資料，並且匯出
data = pd.DataFrame(pd.read_excel('./excel/input.xlsx', 'Sheet1'))
# 檢視讀取資料內容
print("讀取記錄：%s條"%len(data))
repeat_flag = data.duplicated(subset='Column10',keep=False)

# print(repeat_flag)
no_rep_data=data[repeat_flag==False]
rep_data=data[repeat_flag==True]
print("重複記錄：%s條"%len(rep_data))
rep_data_sort = rep_data.sort_values(axis=0,ascending=True,by=["Column2"])
rep_data_rst=rep_data_sort.drop_duplicates(subset='Column10',keep='first')
result=pd.concat([no_rep_data,rep_data_rst],axis=0)
print("輸出記錄：%s條"%len(result))
result.to_excel('./excel/output.xlsx',index=False)

python大量資料去重

技術標籤：pythonexcelpython大資料 python大量資料去重實現功能：實現excel表中篩選重複項，對重複項排序取第一個保留。由於excel表處理大批量資料的時候耗時比較久，且容易卡死，十幾萬的資料便需要幾十個小時

淺談python元素如何去重,去重後如何保持原來元素的順序不變

python列表元素去重後如何保持原來的順序不變原列表： list1 = [1,2,1,4,9,3,5,6,7,8,0]

Django ORM實現按天獲取資料去重求和例子

我就廢話不多說了，大家還是直接看程式碼吧！ def total_data(request): data = request_body(request,\'POST\')

python pandas dataframe 去重函式的具體使用

今天筆者想對pandas中的行進行去重操作，找了好久，才找到相關的函式先看一個小例子

資料去重Distinct，IEqualityComparer，IEquatable

很多情況下我們查詢資料需要去重重複資料，下面就記錄三個去重的方法。 Distinct

List資料去重的五種有效方法

List去重方案方案一:藉助Set的特性進行去重方案二 : 利用set集合特性保持順序一致去重

oracle over結合row_number分割槽進行資料去重處理

一、建立一個測試表A CREATE TABLE A( ID INT, NAME VARCHAR2(20) ); 二、向表中新增資料，且存在相同的資料

數組裡的多個物件資料去重

技術標籤：jquery 類似於這樣的陣列物件資料中有重複的就需要去重這裡設定的陣列去重是checkbox

陣列中字串資料push相同的資料去重 $.unique()

技術標籤：jquery 修改前同一個會重複push修改後同一個就只會新增一次不會重複修改如下： $.unique(videobox);

sql left join 去重_混入了一些奇怪的東西？SQL小技巧之資料去重

技術標籤：sql left join 去重sql sum 去重sql 去重並統計總數sql 去重查詢sql 去重求和sql 結果去重

List 資料去重五種方法

技術標籤：JavaList去重目錄方案一 : 藉助Set的特性進行去重方案二 : 利用set集合特性保持順序一致去重

極其簡單的資料庫資料去重方式

首先根據需要的條件(groub by後的欄位為我們去重條件欄位)查出重複資料： SELECT * FROM house_item a GROUP BY a.label,a.parent_code,a.`code`,a.unit,a.floor,a.house_number HAVING count( * ) > 1)