利用Python實現csv檔案的合併和去重

阿新 • • 發佈：2018-12-04

方法一：

這種方法需要引入glob模組

glob模組是最簡單的模組之一，內容非常少。用它可以查詢符合特定規則的檔案路徑名。跟使用windows下的檔案搜尋差不多。查詢檔案只用到三個匹配符：”*”, “?”, “[]”。”*”匹配0個或多個字元；”?”匹配單個字元；”[]”匹配指定範圍內的字元，如：[0-9]匹配數字。

具體實現如下：

import pandas as pd
import glob

def hebing():
    csv_list = glob.glob('F:/*.csv')
    print(u'共發現%s個CSV檔案'% len(csv_list))
    print(u'正在處理............')
    for i in csv_list:
        fr = open(i,'r').read()
        with open('F:/hebing.csv','a') as f:
            f.write(fr)
    print(u'合併完畢！')

def quchong(file):
    df = pd.read_csv(file,header=0)
    datalist = df.drop_duplicates()
    datalist.to_csv(file)

if __name__ == '__main__':
    hebing()
    quchong("F:/hebing.csv")

方法二：

通過pandas包的read_csv和to_csv兩個方法來完成。

import pandas as pd
import glob

outputfile='f:/hebing.csv'

csv_list = glob.glob('F:/*.csv')
print(u'共發現%s個CSV檔案'% len(csv_list))
print(u'正在處理............')
def hebing():
    for inputfile in csv_list:
        f=open(inputfile)
        data=pd.read_csv(f)
        data.to_csv(outputfile,mode='a',index=False,header=None)
    print('完成合並')
    
def quchong(file):
    df = pd.read_csv(file,header=0)
    datalist = df.drop_duplicates()
    datalist.to_csv(file)
    print('完成去重')

if __name__ == '__main__':
    hebing()
    quchong(outputfile)

利用Python實現csv檔案的合併和去重

方法一：這種方法需要引入glob模組 glob模組是最簡單的模組之一，內容非常少。用它可以查詢符合特定規則的檔案路徑名。跟使用windows下的檔案搜尋差不多。查詢檔案只用到三個匹配符：”*”, “?”, “[]”。”*”匹配0個或多個字元；”?”匹配單個字元；”[]”匹配指定範圍內的

利用python實現簡單的http和https伺服器

http伺服器程式碼： #!/usr/bin/python3 #python version 3.7 import sys from http import server from http.server import SimpleHTTPRequestHandler if sys.ar

bitmap實現大資料排序和去重

要點：假如有10億元素，全部資料讀進記憶體，佔用 1000000000 * 4 / 1024 / 1024 /1024 ≈ 3.725 G，爆炸！解決方法： bitmap演算法，每一位都能表示一位數字，10000000000 / 8 / 1024 / 1024 /

利用python實現自動捕獲程序netstat資訊和自動捕獲telnet資訊，儲存log檔案

#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ AUTH: [email protected] tag: telnet ,then execute all of the API,and capture the p

利用Python實現爬去彩票網站數據——小樣

編程語言 Python 寫這篇文章純屬自娛自樂。主要是近期在自學如何利用Python解決IT運維的一些問題時，總是不得其門而入，為了增加學習興趣，就想通過完成一個小小有趣的爬蟲程序激勵下自己，同時也把這次經歷跟各位道友分享下。Technorati Tags: Python,爬網,彩票,數據,夏明亮首先

PHP如何利用Python實現對PDF檔案的操作

需求：在PHP裡實現了把8.pdf的前4頁pdf檔案截取出來生成新的pdf檔案。詳細步驟如下：前提：python必須是3.x版本以上，必要時需要升級pip3,命令如下：pip3 install --upgrade pipPyPDF 自 2010年 12月開始就不在更新了，PyPDF2 接棒 PyPD

利用python實現區域網內的檔案的傳輸

利用python實現區域網內的檔案的傳輸當前目錄位址列我們輸入cmd，按回車就自動進入當前目錄，這點小技巧尤其方便，省的我們在一級一級去記憶那麼繁瑣的目錄了接下來我們輸入命令，預設埠是8000，我這裡指定了一個8888埠接下來我們輸入命令，預設埠是8000，我這裡指定了一個8888

利用python實現梯度下降和邏輯迴歸原理(Python詳細原始碼：預測學生是否被錄取)

本案例主要是：建立邏輯迴歸模型預測一個學生是否被大學錄取，沒有詳細介紹演算法推到，讀者可查閱其他部落格理解梯度下降演算法的實現：https://blog.csdn.net/wangliang0633/article/details/79082901 資料格式如下：第三列表示錄取狀態，0--

利用python實現簡單的socket服務端和客戶端

服務端： #!/usr/bin/python3 #python version 3.7 import socket so = socket.socket(socket.AF_INET,socket.SOCK_STREAM,socket.IPPROTO_TCP) address = ("127

Python雜談 | (一)Python列表合併、去重和排序

目錄一.列表合併--append() 1.列表物件的append()可以將元素追加到列表中。 2.列表物件的append()可以將另一個列表追加到當前列表中,作為當前列表的一個元素。二.列表合併--extend() 與append

python實現CSV特徵檔案轉化為libsvm特徵檔案輸入spark中進行機器學習

今天早早地下班，閒來無事就繼續鼓搗spark了，spark計算能力很強之外還有一個很強大的功能就是機器學習，藉助於spark平臺的高效能以及高計算能力，機器學習演算法也被廣泛地開發出來，今天在實際使用spark中提供的機器學習演算法的時候遇到一個問題就是：

利用python實現記錄日誌，附程式碼和優化

大家肯定都見過日誌，在自動化中加入日誌資訊，有助於問題的定位下面第一段程式碼實現基本的日誌記錄，第二段程式碼是進行優化過的日誌模組 __author__ = 'zz' import logging #定義一個屬於自己的日誌收集器 from common import projec

python 實現將 pandas 資料和 matplotlib 繪圖嵌入 html 檔案

python 實現將 pandas 資料和 matplotlib 繪圖嵌入 html 檔案實現用 python 將 pandas 的 DataFrame 資料以及 matplotlib 繪圖的影象儲存為 HTML 檔案實現原理 python 的 lx

利用python實現 CAD STEP格式轉化為STL格式--update 對整個資料夾下的所有檔案進行轉換格式

update # 匯入FreeCAD 路徑為FreeCAD安裝路徑,bin檔案裡有個檔案叫 FreeCad.pyd 這是關鍵 import sys sys.path.append('C:\\Software\\FreeCAD 0.17\\bin') import FreeC

python、pandas檔案合併、資料去重

目錄下有如圖60個txt檔案，每個txt檔案裡的資料大概有7000萬行目的：把每個txt檔案裡的資料去重後合併60個檔案為一個總檔案，然後把總檔案裡的資料按第一列、第二列分組第三列求去重後出現的次數每個檔案的內容如下：程式碼如下：# -*- coding:utf-8 -*-

利用Python實現貓臉識別，終於知道貴族貓和家貓的區別！

導語利用Python+OpenCV實現貓臉檢測。使用的是OpenCV內建的Viola-Jones目標檢測框架來實現貓臉檢測，感覺挺有意思的。讓我們愉快地開始吧~~~ 開發工具 Python版本：3.6.4相關模組：cv2模組；以及一些Python自帶的模組。

利用python清理CSV和txt格式資料（附程式碼）

下面程式碼主要包括CSV以及txt檔案的讀寫和清理（將離散變數用數字代替） # -*- coding: utf-8 -*- import numpy as np import pandas as pd def loadData(filename): '''

python 37 pandas操作csv檔案小結，csv檔案合併

import pandas as pd df = pd.read_csv("annotations.csv")[0:10] ## 一 DataFrame,資料幀df，可以將其看作表格 ### 列：index，行：c

利用JavaScript實現音訊檔案的播放和暫停

HTML5 規定了一種通過 audio 元素來包含音訊的標準方法。 audio 元素能夠播放聲音檔案或者音訊流。注意看，a.paused表示當前音訊的狀態，而音訊的暫停和播放對應的方法分別為pause()和play() ——-(自認為很值得注意的地方我

利用WebUploader實現大檔案上傳和視訊上傳

檔案上傳是網站開發必不可少的，常見的有圖片上傳。但是大檔案和視訊上傳不常見。這裡我將自己寫的視訊上傳demo貼出來供大家參考：利用是最新的WebUploader外掛請下載使用最新版即可 js程式碼 _extensions ='3gp,mp4,rmvb,mov,avi,

利用Python實現csv檔案的合併和去重

相關推薦