1. 程式人生 > 其它 >python大量資料去重

python大量資料去重

技術標籤:pythonexcelpython大資料

python大量資料去重

實現功能:實現excel表中篩選重複項,對重複項排序取第一個保留。由於excel表處理大批量資料的時候耗時比較久,且容易卡死,十幾萬的資料便需要幾十個小時,該指令碼可以在幾分鐘內快速處理完並一次性輸出資料,有效減少耗時及人力。供參考。

# -*- coding:utf-8 -*-

# 匯入pandas包並重命名為pd
import pandas as pd

# 讀取Excel中Sheet1中的資料,並且匯出
data = pd.DataFrame(pd.read_excel('./excel/input.xlsx', 'Sheet1'))
# 檢視讀取資料內容
print("讀取記錄:%s條"%len(data))
repeat_flag = data.duplicated(subset='Column10',keep=False)

# print(repeat_flag)
no_rep_data=data[repeat_flag==False]
rep_data=data[repeat_flag==True]
print("重複記錄:%s條"%len(rep_data))
rep_data_sort = rep_data.sort_values(axis=0,ascending=True,by=["Column2"])
rep_data_rst=rep_data_sort.drop_duplicates(subset='Column10',keep='first')
result=pd.concat([no_rep_data,rep_data_rst],axis=0)
print("輸出記錄:%s條"%len(result))
result.to_excel('./excel/output.xlsx',index=False)