Pandas讀取較大資料量級的處理方法 - chunk

阿新 • • 發佈：2019-05-28

前情提要:

工作原因需要處理一批約30G左右的CSV資料，資料量級不需要使用hadoop的使用，同時由於辦公的本本記憶體較低的緣故，需要解讀取資料時記憶體不足的原因。

操作流程：

方法與方式:首先是讀取資料，常見的csv格式讀取時一次性全部讀取進來，面對資料量較大(本次3億條實車資料)時，需要分批並且有選擇性的讀取後提取有效資訊刪除冗餘資訊並清理記憶體。

同時，為了使處理資料時效率更高，將整理好的資料實時讀取進來以後，儲存成快速且可讀的資料形式另行儲存。然後釋放記憶體並讀取下一批資料直到整個流程結束

下面是操作程式碼:

#import pickle # pkl儲存與 hdf5儲存
import pandas as pd
# 釋放記憶體
import gc
reader = pd.read_csv(r'E:\VEH_GBK_2019-01-01.csv', encoding='gbk',iterator=True,low_memory=False,usecols=[0,1,2,4])
title_mc=['location','vid','上報時間','充電狀態']

loop = True
chunkSize = 1000000
ans_vid={}
location_list=['上海','重慶','廣東','北京']
for i in location_list:
    ans_vid[i]=[]


while loop:
    try:
        chunk = reader.get_chunk(chunkSize)
        chunk.columns=title_mc;
        chunk['充電狀態']=chunk['充電狀態'].astype(str)
        chunk['location']=chunk['location'].astype(str)
        for i in location_list:
            temp=chunk[chunk['location'].str.contains(i)]
            if temp[(temp['充電狀態']=='1.0') | (temp['充電狀態']=='4.0')].empty==False:
                ans_vid[i].append(temp[(temp['充電狀態']=='1.0') | (temp['充電狀態']=='4.0')])
                del temp
                gc.collect()
            
        del chunk
        gc.collect()
        
    except StopIteration:
        loop = False
        print ("Iteration is stopped.")

for i in location_list:
    ans_vid[i]=pd.concat(ans_vid[i])
    
location_list=['shanghai','chongqing','guangdong','beijing']
    
for i in location_list:
    ans_vid[i].to_hdf(i+'_charging.h5',key=ans_vid[i],encoding='gbk')

View Code

gc.collect()放在del 引數的後面用以及時釋放記憶體。

讀取的核心程式碼是:

reader = pd.read_csv(r'E:\VEH_GBK_2019-01-01.csv', encoding='gbk',iterator=True,low_memory=False,usecols=[0,1,2,4]) # usecols是讀取原資料的某幾列  chunkSize是分批讀取的量級

chunk = reader.get_chunk(chunkSize)

本次讀取的儲存格式採用的是h5格式即hdf，該種格式易於讀取較大資料量級，同時也有一些資料格式可以儲存較大的資料量級: pkl ,npy等

推薦h5（儲存dataframe）與pkl（儲存字典格式），其讀取速度更快.易於使用

Pandas讀取較大資料量級的處理方法 - chunk

前情提要: 工作原因需要處理一批約30G左右的CSV資料，資料量級不需要使用hadoop的使用，同時由於辦公的本本記憶體較低的緣故，需要解讀取資料時記憶體不足的原因。操作流程：方法與方式:首先是讀取資料，常見的csv格式讀取時一次性全部讀取進來，面對資料

Java 讀取較大資料的excel檔案

記錄一下使用poi讀取大資料excel檔案踩的坑介紹 Java 有2個jar包可以操作excel檔案，分別是jxl和poi； jxl這個jar包只能讀取excel2003年的檔案(檔案字尾為.xls)，而poi這個jar包excel2003(檔案字尾為.xls)和excel2007(檔

資料庫提高查詢效率（較大資料）優化方法

1、資料庫設計方面：（1）建立索引（2）分割槽（MySQL,如按時間分割槽）（3）儘量使用固定長度欄位和限制欄位長度。（如VARCHAR2(10);優勢：①降低物理儲存空間 ②提高資料庫處理速度 ③附帶校驗資料是否合法功能 2、在資料庫I/O方面：（1）增加緩衝區

Python使用pandas讀取Excel檔案資料和預處理小案例

假設有Excel檔案data.xlsx，其中內容為現在需要將這個Excel檔案中的資料讀入pandas，並且在後續的處理中不關心ID列，還需要把sex列的female替換為1，把sex列的male替換為0。本文演示有關的幾個操作。（1）匯入pandas模組 >>> import p

Pandas常用資料預處理方法及指令

1.前言前一段時間，在小夥伴的慫恿下參加了京東的Jdata資料大賽（並以剪刀石頭布的方式決定的組長，草率！不過非常感謝小夥伴們對我的信任，還有我們一起學習的熱情讓我一下恢復了對學習的xing趣了呢），作為一名小白，抱著學習的心態去的，所謂的萬事開頭難是真的，從

較大資料檔案的讀取優化過程續

由來在上一篇部落格（見參考1）中寫了從基本到優化的過程，但仍然有可以優化的餘地，這裡記錄下。問題文章1中根據固定行位元組數優化讀取速度有很大的弊端，就是需要解析的檔案可能是不規則行長度的。可以有通用的按行解析的方法。當然前提仍然是基於記憶體對映檔

phpExcel 讀取資料，大資料檔案處理方案

/** * 讀取 Excel 檔案 * @param string $filePath 要讀取的路徑 * @param integer $sheet 要讀取的工作列表 * @return array

pandas常用資料預處理方法

資料樣式 python程式碼 df = pd.read_csv('../dataset/ai_risk_train/train_auth_info.csv', low_memory=Fals

Pandas學習筆記（2）資料的處理方法

準備工作建立一個6X4的DataFrame,行索引為時間序列，列索引為字母 dates = pd.date_range('20180205',periods=6) df = pd.DataFrame(np.arange(24).reshape((6,4))

Hadoop大資料通用處理平臺

1.簡介 Hadoop是一款開源的大資料通用處理平臺，其提供了分散式儲存和分散式離線計算，適合大規模資料、流式資料(寫一次,讀多次)，不適合低延時的訪問、大量的小檔案以及頻繁修改的檔案。 *Hadoop由HDFS、YARN、MapReduce組成。 Hadoop的特點：

JMeter中返回Json資料的處理方法

Json 作為一種資料交換格式在網路開發，特別是 Ajax 與 Restful 架構中應用的越來越廣泛。而 Apache 的 JMeter 也是較受歡迎的壓力測試工具之一，但是它本身沒有提供對於 Js

pandas 讀取本地csv檔案，處理，儲存

from sqlalchemy import create_engine import pandas as pd from pandas import DataFrame, Series engine = create_engine(“mysql+pymysql

Apache Beam 2.9.0 釋出，大資料批處理和流處理標準

Apache Beam 2.9.0 釋出了。Apache Beam 是 Google 在2016年2月份貢獻給 Apache 基金會的專案，主要目標是統一批處理和流處理的程式設計正規化，為無限、亂序、web-scale 的資料集處理提供簡單靈活，功能豐富以及表達能力十分強

pandas讀取首行資料（首行無列名），dataframe資料錶轉list陣列格式，dataframe轉置

程式碼： def delbycelllist(self, readfrom=None, sheet_name='Sheet1', cgilist=None, cellnamelist=None): if cgilist: fo

幾種簡單的文字資料預處理方法

　　將開頭和結尾的一些資訊去掉，使得開頭如下：　　One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrib

大資料流處理框架介紹

實時流處理簡單概述：實時是說整個流處理相應時間較短，流式技算是說資料是源源不斷的，沒有盡頭的。實時流處理一般是將業務系統產生的資料進行實時收集，交由流處理框架進行資料清洗，統計，入庫，並可以通過視覺化的方式對統計結果進行實時的展示。本文涉及到的框架或技術有 Fl

不平衡資料集處理方法

1、不平衡（均衡）資料集（1）不平衡資料集定義不平衡資料集指的是資料集各個類別的樣本數目相差巨大。以二分類問題為例，假設正類的樣本數量遠大於負類的樣本數量，這種情況下的資料稱為不平衡資料。（2）不平衡資料集舉例 ① 在二分類問題中，訓練集中class 1的樣本數

JMeter中返回Json資料的處理方法（轉）

Json 作為一種資料交換格式在網路開發，特別是 Ajax 與 Restful 架構中應用的越來越廣泛。而 Apache 的 JMeter 也是較受歡迎的壓力測試工具之一，但是它本身沒有提供對於 Json&nb

大資料分析處理必備工具

大資料技術，就是從各種型別的資料中快速獲得有價值資訊的技術。大資料領域已經湧現出了大量新的技術，它們成為大資料採集、儲存、處理和展現的有力武器。一、大資料接入 1、大資料接入已有資料接入、實時資料接入、檔案資料接入、訊息記錄資料接入、文字資料接

Flume+Kafka+Storm+Redis構建大資料實時處理系統

資料處理方法分為離線處理和線上處理，今天寫到的就是基於Storm的線上處理。在下面給出的完整案例中，我們將會完成下面的幾項工作：如何一步步構建我們的實時處理系統（Flume+Kafka+Storm+Redis）實時處理網站的使用者訪問日誌，並統計出該網站的PV、UV 將實時

Pandas讀取較大資料量級的處理方法 - chunk

相關推薦