1. 程式人生 > >利用Python實現csv檔案的合併和去重

利用Python實現csv檔案的合併和去重

方法一:

這種方法需要引入glob模組

glob模組是最簡單的模組之一,內容非常少。用它可以查詢符合特定規則的檔案路徑名。跟使用windows下的檔案搜尋差不多。查詢檔案只用到三個匹配符:”*”, “?”, “[]”。”*”匹配0個或多個字元;”?”匹配單個字元;”[]”匹配指定範圍內的字元,如:[0-9]匹配數字。

具體實現如下:

import pandas as pd
import glob

def hebing():
    csv_list = glob.glob('F:/*.csv')
    print(u'共發現%s個CSV檔案'% len(csv_list))
    print(u'正在處理............')
    for i in csv_list:
        fr = open(i,'r').read()
        with open('F:/hebing.csv','a') as f:
            f.write(fr)
    print(u'合併完畢!')

def quchong(file):
    df = pd.read_csv(file,header=0)
    datalist = df.drop_duplicates()
    datalist.to_csv(file)

if __name__ == '__main__':
    hebing()
    quchong("F:/hebing.csv")

方法二:

通過pandas包的read_csv和to_csv兩個方法來完成。

import pandas as pd
import glob

outputfile='f:/hebing.csv'

csv_list = glob.glob('F:/*.csv')
print(u'共發現%s個CSV檔案'% len(csv_list))
print(u'正在處理............')
def hebing():
    for inputfile in csv_list:
        f=open(inputfile)
        data=pd.read_csv(f)
        data.to_csv(outputfile,mode='a',index=False,header=None)
    print('完成合並')
    
def quchong(file):
    df = pd.read_csv(file,header=0)
    datalist = df.drop_duplicates()
    datalist.to_csv(file)
    print('完成去重')

if __name__ == '__main__':
    hebing()
    quchong(outputfile)