python 合併csv和excel檔案

阿新 • • 發佈：2021-01-01

技術標籤：python

這篇文章是R語言如何合併csv檔案（批量讀取csv檔案）的姊妹篇。提供更為強大的功能。

解決的問題是提取csv檔案和xlsx檔案混雜時，檔案合併問題。具體來說，下面的程式碼是提取指定列文字，簡單清洗後存入新csv檔案。

提取的列名為“博文內容”（在兩類檔案中列名相同）
process(data)為文字清洗模組
資料庫介面未使用
程式碼如下：

# This is a sample Python script.
import csv
import re
import os
import xlrd
import store_to_sql
# Press Shift+F10 to execute it or replace it with your code. 

# Press Double Shift to search everywhere for classes, files, tool windows, actions, and settings.


def find_path_list(path):
    file_list = os.listdir(path)
    for i,file in enumerate(file_list):
        file_list[i] = path + os.sep + file
    return file_list


def read_csv_colum(file_dir, encoding = 
 "utf-8-sig"):          #提取檔案指定列
    try:
        col_text = -1
        with open(file_dir, 'r',encoding=encoding, newline='') as f:
            reader = csv.reader(f)
            for i, col_name in enumerate(next(reader)):
                if col_name == "博文內容":
                    col_text = 
 i
        with open(file_dir, 'r', encoding=encoding, newline='') as f:
            reader = csv.reader(f)
            data = [row[col_text] for row in reader]
    except:
        try:
            # 開啟excel檔案，建立一個workbook物件,表含有sheet名
            rbook = xlrd.open_workbook(file_dir)
            # sheets方法返回物件列表,[<xlrd.sheet.Sheet object at 0x103f147f0>]
            rbook.sheets()
            # xls預設有3個工作簿,Sheet1,Sheet2,Sheet3
            col_text = -1
            col_time = -1
            rsheet = rbook.sheet_by_index(0)  # 取第一個工作簿
            for row in rsheet.get_rows():
                for i, col_name in enumerate(row):
                    if str(col_name) == "text:'博文內容'":
                        col_text = i
                break
            data = [row[col_text] for row in rsheet.get_rows()]       # 第二列
            print("這是xlsx檔案")
        except:
            data = []
    return data


def write_csv(file_dir, result_data):
    # 寫入csv檔案，現在更改為寫入sql資料庫
    with open(file_dir,
              'a',
              encoding='utf-8-sig',
              newline='') as f:
        writer = csv.writer(f)
        for data in result_data:
            writer.writerows([[data]])


def write_sql(file_dir, result_data, connect):
    """
    """
    for data in result_data:
        store_to_sql.store_to_sql(data, connect)


def process(data):
    deal_data = []
    for text in data:
        text = str(text)
        a = re.sub(u"\\(.*?\\)|\\{.*?\\}|\\[.*?\\]|\\<.*?\\>", "", text)       # 刪去
        a2 = re.sub(u"\\【.*?\\】|\\{.*?\\}|\\[.*?\\]|\\<.*?\\>", "", a)
        a3 = re.sub(u"\\#.*?\\#|\\{.*?\\}|\\[.*?\\]|\\<.*?\\>", "", a2)       # 刪#之間內容，上同
        a4 = re.sub('[a-zA-Z]','',a3)                                       # 刪英文字母
        a5 = re.sub('博文內容', '', a4)
        if a5 == "" or len(a5) < 5:
            continue
        else:
            deal_data.append(a5)
    return deal_data


# Press the green button in the gutter to run the script.
if __name__ == '__main__':
    fold_path = "E:\課程\自然語言處理\資料彙總的副本"       #輸入scsv檔案存放的絕對路徑
    new_csv_dir = fold_path + os.sep + "合併後資料.csv"         #處理後csv檔案的名字                                          # 指定提取第三列
    file_dir_list = find_path_list(fold_path)   # 返回檔案路徑列表

    # 存入資料庫，可修改下面for迴圈內部的write_csv來修改為存入資料庫功能
    # store_to_sql.create_tab(store_to_sql.conn_sql())
    # conn = store_to_sql.conn_sql()

    for i, dir in enumerate(file_dir_list):
        try:
            result_data = read_csv_colum(dir)
            deal_data = process(result_data)
            write_csv(new_csv_dir, deal_data)
            print("已經完成{}%".format(round((i+1) * 100 / len(file_dir_list), 2)))
        except UnicodeDecodeError as e:
            print(e)

新年第一篇部落格，新年快樂！進一步有進一步的喜悅~

python 合併csv和excel檔案

技術標籤：python 這篇文章是R語言如何合併csv檔案（批量讀取csv檔案）的姊妹篇。提供更為強大的功能。

python合併多個excel檔案的示例

工作中經常遇到要將十幾個Excel（不管是xls、或者是CSV）合併到同一個檔案中去，手工一個一個複製是不可能的，此時就輪到Python出馬了

用Python合併多個Excel檔案

本文采用Python2.7除錯通過 #!/usr/bin/python #encoding=utf-8 #表頭,根據自己的情況修改 biaotou=[\'姓名\',\'手機號\',\'身份證號\',\'入職日期\',\'入職時間\',\'入職單位\']

Python讀寫操作csv和excle檔案程式碼例項

1、python讀寫csv檔案 import csv #讀取csv檔案內容方法1 csv_file = csv.reader(open(\'testdata.csv\',\'r\'))

python讀取csv，Excel，Txt，Yaml 檔案

1.資料 1.Csv login.csv檔案： byhy,88888888 ReadCsv.py檔案 import csv #匯入csv包 class ReadCsv(): def csv(self):

Python批量讀寫excel檔案（xlrd和xlwt）

一、使用xlrd對excel進行資料讀取 excel表格示例：安裝xlrd庫 pip install xlrd 匯入xlrd庫

Python使用SQLite和Excel操作進行資料分析

昨日，女票拿了一個Excel文件，裡面有上萬條資料要進行分析，剛開始一個欄位分析，Excel用的不錯，還能搞定，到後來兩個欄位的分析，還有區間比如年齡段的資料分析，實在是心疼的不行，於是就想給她程式處理之。

解決python執行較大excel檔案openpyxl慢問題

我就廢話不多說了，大家還是直接看程式碼吧！ talk is cheap from openpyxl import Workbook

【Python學習】讀取Excel檔案，並寫入Excel

讀取Excel： def api_data(xlsfile): #呼叫xlrd，開啟excel檔案 book=xlrd.open_workbook(xlsfile) # 通過索引，獲取相應的列表,這裡表示獲取Excel的第一個列表

Python xlrd/xlwt 建立excel檔案及常用操作

一、建立excel程式碼備註：封裝好了（可直接呼叫） \"\"\" -*- coding:utf-8 -*- @Time :2020/8/20 21:02

PHP快速匯出百萬級資料到CSV或者EXCEL檔案

前言：很多時候，因為資料統計，我們需要將資料庫的資料匯出到Excel等檔案中，以供資料人員進行檢視，如果資料集不大，其實很容易；但是如果對於大數集的匯出，將要考慮各種效能的問題，這裡以匯出資料庫一百萬條資

python基於openpyxl生成excel檔案

　　專案需要，需要自動生成PDF測試報告。經過對比之後，選擇使用了reportlab模組。專案背景：開發一個測試平臺，供測試維護測試用例，執行測試用例，並且生成測試報告（包含PDF和excel），將生成的測試報告以郵件的

Python Pandas讀寫Excel檔案

技術標籤：# 3.1 資料分析# 4.2 PythonpythonexcelPandas 讀寫excel需要用到： pip install xlrd -i https://pypi.tuna.tsinghua.edu.cn/simple

教你使用Python批量讀寫excel檔案

技術標籤：excelcsvpoi資料視覺化html 當面對成百上千個excel檔案，需要重複讀寫時，你會不會很頭大呢？

使用TestNG,Apahcje POI和Excel檔案進測試行資料驅動測試

import com.cxy_fanwe.common.test_fanwe_qiantai;import org.apache.http.Header;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.http.client.methods.HttpPost;import org.apac