利用Python實現csv檔案的合併和去重
阿新 • • 發佈:2018-12-04
方法一:
這種方法需要引入glob模組
glob模組是最簡單的模組之一,內容非常少。用它可以查詢符合特定規則的檔案路徑名。跟使用windows下的檔案搜尋差不多。查詢檔案只用到三個匹配符:”*”, “?”, “[]”。”*”匹配0個或多個字元;”?”匹配單個字元;”[]”匹配指定範圍內的字元,如:[0-9]匹配數字。
具體實現如下:
import pandas as pd import glob def hebing(): csv_list = glob.glob('F:/*.csv') print(u'共發現%s個CSV檔案'% len(csv_list)) print(u'正在處理............') for i in csv_list: fr = open(i,'r').read() with open('F:/hebing.csv','a') as f: f.write(fr) print(u'合併完畢!') def quchong(file): df = pd.read_csv(file,header=0) datalist = df.drop_duplicates() datalist.to_csv(file) if __name__ == '__main__': hebing() quchong("F:/hebing.csv")
方法二:
通過pandas包的read_csv和to_csv兩個方法來完成。
import pandas as pd import glob outputfile='f:/hebing.csv' csv_list = glob.glob('F:/*.csv') print(u'共發現%s個CSV檔案'% len(csv_list)) print(u'正在處理............') def hebing(): for inputfile in csv_list: f=open(inputfile) data=pd.read_csv(f) data.to_csv(outputfile,mode='a',index=False,header=None) print('完成合並') def quchong(file): df = pd.read_csv(file,header=0) datalist = df.drop_duplicates() datalist.to_csv(file) print('完成去重') if __name__ == '__main__': hebing() quchong(outputfile)