Python 大檔案拆分，分類，儲存

阿新 • • 發佈：2021-01-07

Python 大檔案拆分，分類，儲存

一、對可迭代物件簡易理解

我們以 hello word字串進行試驗:

————————————————————————————————————————————————————————
# method1：
lst_iter = iter('hello world')   # 用iterate() 生成迭代器
for i in lst_iter:
    print(i)
————————————————————————————————————————————————————————
# method2：
lst_iter = 
 iter('hello world')
loop = True
while loop:
    try:
        print(next(lst_iter))
    except StopIteration:
        loop = False
————————————————————————————————————————————————————————
# method1 和 method2 執行結果一致為：
h
e
l
l
o
 
w
o
r
l
d

二、進行大檔案的拆分，儲存

需要使用 pandas模組中 chunksize或者iterator引數，還需使用groupby() 方法。

# 演示案例  <可迭代物件，進行遍歷>
lst_iter = iter('hello')
print(next(lst_iter))
print('***********************')
for i in lst_iter:
    print(i)
————————————————————————————————————————————————————————
# 執行結果
h
***********************
e
l
l
o

import pandas as pd
import numpy as np

# 逐步讀取檔案
table = pd.read_csv 
(r'D:\Program Files\vscodeworkspace\鐳射雷達\
原始資料\WindSpeed20181028.csv', index_col=0, chunksize=1600)

''' 對儲存檔案的資料進行重新寫入，防止重複執行，追加在原有資料上 '''
df = next(table)
groupby = df.groupby(by='Distance')                  # 分組
for value, group in groupby:
    filename = './拆分資料/' + str(value) + '.csv'   # 命名
    ''' 取出第一個 部分資料，寫入儲存 header '''
    group.to_csv(filename, sep=',', mode='w')        # 儲存

for df in table: 
    groupby = df.groupby(by='Distance')
    for value, group in groupby:
        filename = './拆分資料/' + str(value) + '.csv'
        ''' for 迴圈追加不需要 header，需要申明 '''
        group.to_csv(filename, sep=',', header=None, mode='a')  # 儲存

參考

撰寫參考了 python使用chunk進行大檔案的讀寫，程式碼如下：

# python使用chunk進行大檔案的讀寫
reader = pd.read_csv('test.csv', iterator=True,low_memory=False)
loop = True
chunkSize = 100000
chunks = []
while loop:
    try:
        chunk = reader.get_chunk(chunkSize)
        chunks.append(chunk)
    except StopIteration:
        loop = False
        print("迭代停止。")
df = pd.concat(chunks, ignore_index=True)

Python 大檔案拆分，分類，儲存

技術標籤：大檔案讀取大檔案拆分大檔案儲存pythonpandas Python 大檔案拆分，分類，儲存

關於程式包大檔案上傳處理，前端實現斷點續傳檔案

// dom程式碼<el-form-item label=\"請選擇檔案：\" v-if=\"!processPercentage\"> <div class=\"upload-button-box\">

【新手提問】python建立檔案後無法刪除，程式被佔用

技術標籤：python python建立檔案後無法刪除，程式被佔用 python新手入門問題描述：

linux大檔案拆分split

環境：centos 1、split幫助檢視用法：split[OPTION]。。。[輸入[字首]] 將固定大小的片輸出到PREFIXaa，PREFIXab，…；預設值大小為1000行，預設字首為“x”。沒有輸入，或者當輸入時是-，讀取標準

python 大檔案讀寫

使用 import smbclient# pip install smbprotocol import zlib import re import os smbclient.register_session(\"10.x.x.x\", username=\"123\", password=\"123\")

Linux 關於tar分卷壓縮大檔案拆分 split

分卷壓縮研究：要將檔案test.pdf分包壓縮成500 bytes的檔案： tar czf - test.pdf | split -b 500 - test.tar.gz

Python網路程式設計(三)-基於tcp協議實現檔案傳輸(解決傳輸大檔案過程中，防止出現粘包現象)

server.py #服務端接收 #解決傳輸大問題可能出現的粘包現象 import json import socket import struct

檔案太大傳輸太慢？教你如何用Python壓縮檔案，加快檔案傳輸速度！

首先我們來說一下事件的起因。好兄弟有幾百個G的福利想分享給我，結果他沒有安裝壓縮檔案的工具，那怎麼辦？誒！那我怎麼不幫他寫一個呢，還不用為了它單獨下載一個，豈不美哉，有想法就要趕快行動起來。

Python爬取豆瓣音樂TOP250，爬取的資料儲存到csv檔案和xls檔案

爬取的目標網址：https://music.douban.com/top250 利用lxml庫，獲取前10頁的資訊，需要爬取的資訊包括歌曲名、表演者、流派、發行時間、評分和評論人數，把這些資訊存到csv和xls檔案

EXCEL技能 | EXCEL中實現地圖快照，截大圖、加水印、儲存PNG、TIF、HTML檔案

在EXCEL中能夠標註地圖、繪製地圖、視覺化資料等操作，並可實現地圖快照，截大圖、加水印、儲存PNG、TIF、HTML檔案

乘風破浪，遇見最美Windows 11之現代Windows桌面應用開發 - Git大檔案儲存(LFS)解決原始碼庫二進位制檔案託管問題

背景我們知道Git用來託管原始碼程式碼是非常輕量和方便的，但是因為一些實際需要，我們可以需要把一些第三方的元件的二進位制檔案、或者專案資料放到庫裡面一起，但是和原始碼比起來，這些東西都是大傢伙，不僅體積

Mysql報Too many connections，不要亂用ulimit了，看看如何正確修改程式的最大檔案數

背景今天在學習mysql時，看到一個案例，大體來說，就是客戶端報Too many connections。但是，客戶端的連線池，限制為了200，兩個客戶端java程式，那也才400，然後mysql配置了800的連線。

Mysql報Too many connections，不要亂用ulimit了，看看如何正確修改程序的最大檔案數

背景今天在學習mysql時，看到一個案例，大體來說，就是客戶端報Too many connections。但是，客戶端的連線池，限制為了200，兩個客戶端java程序，那也才400，然後mysql配置了800的連線。

Python Set集合，函式，深入拷貝，淺入拷貝,檔案處理

Python Set集合，函式，深入拷貝，淺入拷貝,檔案處理 1、Set基本資料型別 a、set集合，是一個無序且不重複的元素集合

6年Python大神總結10個開發技巧，80%的人都不會

今天給大家分享 10 個我平時整理非常實用的 Python 開發小技巧，內容目錄如下：

python-按日期新建資料夾，將昨日接收檔案移入歸檔

　　在工作過程中，data目錄會一直接收檔案，收到的檔案放到一個大目錄裡不好判斷是否漏收，也不利於檢索；

Python第二篇詳細瞭解列表，字串，檔案操作

1.列表操作升級　　a.列表合併　 names1=[\"a\",\"b\",\"c\"] names2=[\"1\",\"2\",\"3\"] names1.extend(names2)

python讀取csv，Excel，Txt，Yaml 檔案

1.資料 1.Csv login.csv檔案： byhy,88888888 ReadCsv.py檔案 import csv #匯入csv包 class ReadCsv(): def csv(self):

入門資料採集，python爬蟲常見的資料採集與儲存、

本文介紹兩種方式來實現python爬蟲獲取資料，並將python獲取的資料儲存到檔案中。一、第一種方式：主要通過爬取百度官網頁面資料，將資料儲存到檔案baidu.html中，程式執行完開啟檔案baidu.html檢視效果。具體程式碼

黑馬python入門(4)：python基礎(序列，異常，操作檔案，模組包，日誌除錯資訊)

python線上手冊 https://docs.python.org/zh-cn/3/序列str宣告：test_str=”abcedf” 也可以保留字串裡面的格式來test_str=””“<html><title>\\r\\n測試標題</title><body><span>he

Python 大檔案拆分，分類，儲存