python大量資料去重
阿新 • • 發佈:2021-01-09
python大量資料去重
實現功能:實現excel表中篩選重複項,對重複項排序取第一個保留。由於excel表處理大批量資料的時候耗時比較久,且容易卡死,十幾萬的資料便需要幾十個小時,該指令碼可以在幾分鐘內快速處理完並一次性輸出資料,有效減少耗時及人力。供參考。
# -*- coding:utf-8 -*- # 匯入pandas包並重命名為pd import pandas as pd # 讀取Excel中Sheet1中的資料,並且匯出 data = pd.DataFrame(pd.read_excel('./excel/input.xlsx', 'Sheet1')) # 檢視讀取資料內容 print("讀取記錄:%s條"%len(data)) repeat_flag = data.duplicated(subset='Column10',keep=False) # print(repeat_flag) no_rep_data=data[repeat_flag==False] rep_data=data[repeat_flag==True] print("重複記錄:%s條"%len(rep_data)) rep_data_sort = rep_data.sort_values(axis=0,ascending=True,by=["Column2"]) rep_data_rst=rep_data_sort.drop_duplicates(subset='Column10',keep='first') result=pd.concat([no_rep_data,rep_data_rst],axis=0) print("輸出記錄:%s條"%len(result)) result.to_excel('./excel/output.xlsx',index=False)