pandas.read_csv分塊讀取大檔案

阿新 • • 發佈：2019-01-27

import time
import pandas as pd
from tqdm import tqdm


# @execution_time
def reader_pandas(file, chunkSize=100000, patitions=10 ** 4):
    reader = pd.read_csv(file, iterator=True)
    chunks = []
    with tqdm(range(patitions), 'Reading ...') as t:
        for _ in t:
            try:
                chunk = reader.get_chunk(chunkSize)
                chunks.append(chunk)
            except StopIteration:
                break
    return pd.concat(chunks, ignore_index=True)

print(reader_pandas("./data/train_set.csv"))

輸出：

D:\software\Anaconda3\python.exe D:/Competitions/DaGuanBei/test.py
Reading ...:   0%|          | 2/10000 [00:41<79:10:31, 28.51s/it] 
            id  ...  class
0            0  ...     14
1            1  ...      3
2            2  ...     12
3            3  ...     13
4            4  ...     12
5            5  ...     13
6            6  ...      1
7            7  ...     10
8            8  ...     10
9            9  ...     19
10          10  ...     18
11          11  ...      7
12          12  ...      9
13          13  ...      4
14          14  ...     17
15          15  ...      9
16          16  ...     13
17          17  ...     10
18          18  ...     10
19          19  ...     14
20          20  ...     10
21          21  ...      9
22          22  ...      1
23          23  ...      2
24          24  ...     13
25          25  ...      1
26          26  ...      7
27          27  ...     17
28          28  ...     10
29          29  ...      8
...        ...  ...    ...
102247  102247  ...      9
102248  102248  ...     18
102249  102249  ...     13
102250  102250  ...      9
102251  102251  ...      1
102252  102252  ...     14
102253  102253  ...     12
102254  102254  ...     11
102255  102255  ...     19
102256  102256  ...      2
102257  102257  ...      4
102258  102258  ...      3
102259  102259  ...      6
102260  102260  ...      9
102261  102261  ...      1
102262  102262  ...     18
102263  102263  ...      6
102264  102264  ...      8
102265  102265  ...     16
102266  102266  ...     18
102267  102267  ...     15
102268  102268  ...      3
102269  102269  ...      3
102270  102270  ...      3
102271  102271  ...      8
102272  102272  ...     14
102273  102273  ...      8
102274  102274  ...     12
102275  102275  ...      4
102276  102276  ...     11

[102277 rows x 4 columns]

Process finished with exit code 0

上面的程式碼運用的是pandas的read_csv()，預設引數sep=','分隔符為','，正好和csv以逗號為分隔符吻合。

iterator : boolean, default False

返回一個TextFileReader 物件，以便逐塊處理檔案。

iterator=True表示逐塊讀取檔案。

reader.get_chunk(chunkSize)表示每次讀取塊的大小為chunkSize。

tqdm模組是用來列印讀取檔案的進度條，詳見參考資料。

參考資料：

pandas.read_csv——分塊讀取大檔案

訪問本站觀看效果更佳 read_csv中有個引數chunksize，通過指定一個chunksize分塊大小來讀取檔案，返回的是一個可迭代的物件TextFileReader，IO Tools 舉例如下： In [138]: reader = pd.read_table('

pandas.read_csv分塊讀取大檔案

import time import pandas as pd from tqdm import tqdm # @execution_time def reader_pandas(file, chunkSize=100000, patitions=10 ** 4):

java 分次讀取大檔案的三種方法

1. java 讀取大檔案的困難 java 讀取檔案的一般操作是將檔案資料全部讀取到記憶體中，然後再對資料進行操作。例如 Path path = Paths.get("file path"); byte[] data = Files.readAllBytes(path)

python分塊讀取大資料，避免記憶體不足

def read_data(file_name): ''' file_name:檔案地址 ''' inputfile = open(file_name, 'rb') #可開啟含有中文的地址 data = pd.read_csv(in

pandas 讀取csv檔案讀取指定行讀取csv大檔案分塊讀取方法

當用pandas的read_csv函式或者是read_table函式讀取檔案時，如果遇到大的檔案，需要分塊讀取，在這個基礎上可以讀取指定行，比如讀取標籤全為0的行。程式碼如下： f

pandas讀取大檔案時memoryerror的解決辦法

再用pd.read_csv讀取大檔案時，如果檔案太大，會出現memoryerror的問題。解決辦法一：pd.read_csv的引數中有一個chunksize引數，為其賦值後，返回一個可迭代物件TextFileReader，對其遍歷即可 reader = pd.read_csv(file_

pandas 讀取大檔案

from matplotlib import pyplot import scipy as sp import numpy as np from matplotlib import pylab from pandas import Series,

python讀取大檔案的方法 python計算檔案的行數和讀取某一行內容的實現方法

python計算檔案的行數和讀取某一行內容的實現方法：最簡單的辦法是把檔案讀入一個大的列表中,然後統計列表的長度.如果檔案的路徑是以引數的形式filepath傳遞的,那麼只用一行程式碼就可以完成我們的需求了: 1、http://blog.csdn.net/shudaq

fread讀取大檔案以及返回值問題(轉載)

今天fread檔案讀取遇到問題，本來很小的一個問題，但是一直沒有注意到，導致花了不少時間除錯，所以寫下來備忘一下。 size_t fread ( void * ptr, size_t size, size_t count, FILE * stream ); /

python讀取大檔案和普通檔案

讀取檔案，最常見的方式是： with open('filename', 'r', encoding = 'utf-8') as f: for line in f.readlines(): do_something(line) 但是，當完成這一操作時，readlines()

C#為例，分塊上傳檔案

前臺： <html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> <title>&

Python 讀取大檔案的方式

對於讀取容量小的檔案，可以使用下面的方法： with open("path", "r") as f: f.read() 但是如果檔案容量很大，高達幾個G或者十幾個G，使用上面這種方式就容易造成記憶體溢位的問題，所以如果進行大容量的檔案讀取建議使用下面這種方式： with open

Python地學分析 — GDAL分塊讀取遙感影像

歡迎關注博主的微信公眾號：“智慧遙感”。該公眾號將為您奉上Python地學分析、爬蟲、資料分析、Web開發、機器學習、深度學習等熱門原始碼。本人的GitHub程式碼資料主頁（持續更新中，多給Star，多Fork）： https://github.com/xbr2017

讀取大檔案資料進入redis作為快取:贈(廣播變數)

在專案中使用Redis做快取檔案(目的等同於廣播變數): package com.app import com.utils.{JedisConnectionPool, RptUtils} import org.apache.commons.lang.StringUtils import

如何在不會導致伺服器宕機的情況下，用 PHP 讀取大檔案

作為PHP開發人員，我們並不經常需要擔心記憶體管理。PHP 引擎在我們背後做了很好的清理工作，短期執行上下文的 Web 伺服器模型意味著即使是最潦草的程式碼也不會造成持久的影響。很少情況下我們可能需要走出這個舒適的地方 ——比如當我們試圖在一個大型專案上執行 Co

Java讀取大檔案的方式比較

最近實習在做資料庫匯入匯出的功能，在匯入資料的時候，就要考慮資料檔案較大的情況，這種情況下直接將整個檔案讀入記憶體是不可取的。本文采用的三種方式：1.緩衝位元組流；2.檔案通道FileChannel；3.記憶體檔案對映既然不能直接全部讀取大檔案到記憶體中，那麼就應

C# 讀取大檔案

/// <summary> /// 讀取大檔案,每次讀取1M,優化可考慮分割讀取 /// </summary> /// <returns></returns> public static string ReadBinaryFileToString(Fi

Java多執行緒讀取大檔案

前言　　今天是五一假期第一天，按理應該是快樂玩耍的日子，但是作為一個北漂到京師的開發人員，實在難想出去那玩耍。好玩的地方比較遠，近處又感覺沒意思。於是乎，閒著寫篇文章，總結下昨天寫的程式吧。　　昨天下午朋友跟我聊起，他說有個需求，需要把上G的txt檔案讀取寫入到資料庫。

Python 讀取大檔案

最近在學習python的過程中接觸到了python對檔案的讀取。python讀取檔案一般情況是利用open()函式以及read()函式來完成：f = open(filename,'r') f.read()這種方法讀取小檔案，即讀取遠遠大小小於記憶體的檔案顯然沒有什麼問題。但是

通過靜態程式碼塊讀取配置檔案配置靜態屬性

在專案開發中，通常會將一些經常變動的配置提取出來，做成一個配置類，通過該類的靜態屬性來引用配置。而在專案上線的時候，為了方便後期運維，將配置寫在程式碼裡面的方式是肯定不行的了，這時需要將配置資訊提取出來，放到配置檔案中。下面是一種採用靜態程式碼塊配置靜態變數的方

pandas.read_csv分塊讀取大檔案

相關推薦