pandas 中處理大型檔案的方法

阿新 • • 發佈：2020-12-07

import pandas as pd 
import  numpy as  np

讀取資料

g1=pd.read_csv(r"F:\_test.csv")
g1

查看錶的行列資訊，有多少行，多少列

g1.shape

查看錶的記憶體資訊

g1.info(memory_usage="deep")

檢視不同內型別所佔用的記憶體空間大小

for  dtype in ["float64","int64","object"]:
    selected_type= 
g1.select_dtypes(include=[dtype])
    mean_usage_b=selected_type.memory_usage(deep=True)
    mean_usage_mb=mean_usage_b/1024**2
    print("平均佔用記憶體：",dtype,mean_usage_mb)

定義一個函式，來判定輸入的資料大小

def mem_usage(pandas_obj):
    if isinstance(pandas_obj,pd.DataFrame):
        usage_b=pandas_obj. 
memory_usage(deep=True).sum()
    else:
        usage_b=pandas_obj.memory_usage(deep=True)
    usage_mb=usage_b/1024**2
    return '{:03.2f}MB'.format(usage_mb)

針對 int 型別進行向下轉換 downcast

選擇目標表中字元型別為int64的列

g1_int=g1.select_dtypes(include=['int64'])

將對應的列，進行向下轉換

coverted_int=g1_int.apply(pd.to_numeric, 
downcast='unsigned')


###判定未轉換前的資料大小
print(mem_usage(g1_int))

###判定已轉換的資料大小
print(mem_usage(coverted_int))

針對float 型別進行向下轉換

選擇目標表中字元型別為float64的列

g1_float=g1.select_dtypes(include=[‘float64’])

將對應的列，進行向下轉換

coverted_float=g1_float.apply(pd.to_numeric,downcast='unsigned')


###判定未轉換前的資料大小
print(mem_usage(g1_float))

###判定已轉換的資料大小
print(mem_usage(coverted_float))

複製一個表，將轉換的列進行

optimized_g1=g1.copy()

optimized_g1[coverted_int.columns]=coverted_int
optimized_g1[coverted_float.columns]=coverted_float

針對整個表進行比對，看資料是否有真的進行縮減

print(mem_usage(g1))

print(mem_usage(optimized_g1))

結論通過int64 轉int32 ,或者float64 轉float32 可以將資料進行一定的縮減，但是效果並不是很明顯

在這裡插入圖片描述

obj字串中，該型別的佔比較大，縮減可以主要通過他來進行儲存進行縮減

賽選出所有字串的欄位出來

g1_obj=g1.select_dtypest_dtypes(include=[“object”]).copy()

針對字串的進行描述

g1_obj.describe()

在這裡插入圖片描述

判定當 unique 數值遠遠小於 count 的數值時候，可以將設定記憶體地址–category，減少空間使用

dow_starting_street=g1_obj.starting_street.astype('category')
dow_starting_end_street=g1_obj.end_street.astype('category')
dow_starting_street_for_each_step=g1_obj.street_for_each_step.astype('category')
dow_starting_step_maneuvers=g1_obj.step_maneuvers.astype('category')
##
##轉換前的資料大小
print(mem_usage(g1_obj.starting_street))

##轉換後的資料大小
print(mem_usage(dow_starting_street))

在這裡插入圖片描述

定義一個函式，將所有的列進行字串的大小轉換

converted_obj=pd.DataFrame()

##遍歷在字串裡面的每行資料
for col in g1_obj.columns:
    ###判定改行去重後的所剩的數值
    num_unique_values=len(g1_obj[col].unique())
    # 判定不去重的列的數值剩多少
    num_total_values=len(g1_obj[col])
    if num_unique_values/num_total_values<0.7:
        ##如果去重後的佔比小於0.7  就可以進行轉換為為category
        converted_obj.loc[:,col]=g1_obj[col].astype("category")
    else:
        converted_obj.loc[:,col]=g1_obj[col]

效果轉換明顯

##對比轉換以及未轉換的資料空間所佔大小

print(mem_usage(g1_obj))

print(mem_usage(converted_obj))

在這裡插入圖片描述

pandas 中處理大型檔案的方法

技術標籤：pandas資料分析資料分析 import pandas as pd importnumpy asnp 讀取資料 g1=pd.read_csv(r"F:\\_test.csv")

win10在資源管理器主頁中新增庫檔案方法

win10官方系統中庫可以輕鬆管理系統中的文件、音樂、圖片以及視訊，但它本身並不儲存任何內容，只是對所新增的資料夾專案進行監視。刪除它也不會影響系統中的原有檔案。所以很多人直接刪除掉，不過後來又想找回來，這

如何在python中處理配置檔案程式碼例項

配置檔案是一種計算機檔案，可以為一些計算機程式配置引數和初始設定，在內容形式上是一個一個鍵值對的記錄。

pandas處理csv檔案的方法步驟

一、我的需求對於這樣的一個 csv 表，需要將其（1）將營業部名稱和日期和股票程式碼進行拼接

mybatis在xml檔案中處理大於號小於號的方法

第一種方法：用了轉義字元把>和<替換掉，然後就沒有問題了。 SELECT * FROM test WHERE 1 = 1 AND start_date<= CURRENT_DATE AND end_date >= CURRENT_DATE

關於在vue中引用svg大型檔案的方法之一以及svg圖片滑鼠拖動，放大縮小等

技術標籤：jsvuesvgvue.js 關於在vue中引用svg大型檔案的方法之一以及svg圖片滑鼠拖動，放大縮小等

redis中修改配置檔案中的埠號密碼方法

windows中 1.找到redis檔案的位置,編輯redis.windows.conf,將埠號改成8888 2.開啟cmd,重啟啟動(帶配置檔案的啟動)

python檔案處理fileinput使用方法詳解

這篇文章主要介紹了python檔案處理fileinput使用方法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

pandas中read_csv的缺失值處理方式

今天遇到的問題是，要將一份csv資料讀入dataframe，但某些列中含有NA值。對於這些列來說，NA應該作為一個有意義的level，而不是缺失值，但read_csv函式會自動將類似的缺失值理解為缺失值並變為NaN。

在pandas中遍歷DataFrame行的實現方法

有如下 Pandas DataFrame： import pandas as pd inp = [{\'c1\':10,\'c2\':100},{\'c1\':11,\'c2\':110},{\'c1\':12,\'c2\':120}]

pandas 缺失值與空值處理的實現方法

1.相關函式 df.dropna() df.fillna() df.isnull() df.isna() 2.相關概念空值：在pandas中的空值是\"\"

Python實現PyPDF2處理PDF檔案的方法示例

實際應用中，可能會涉及處理 pdf 檔案，PyPDF2 就是這樣一個庫，使用它可以輕鬆的處理 pdf 檔案，它提供了讀，割，合併，檔案轉換等多種操作。

如何處理maven倉庫中字尾LastUpdated檔案

一、背景　　新做了一個的需求，需要在SpringBoot專案中引入了多個依賴，然後就感覺idea下載依賴包的時間很漫長，然後我就網上找了解決辦法——使用國內的阿里雲映象，後來呢，就出現了這個問題。刪除該檔案也未曾生

pandas中的ExcelWriter和ExcelFile的實現方法

一、簡介　　pandas中的ExcelFile()和ExcelWriter()，是pandas中對excel表格檔案進行讀寫相關操作非常方便快捷的類，尤其是在對含有多個sheet的excel檔案進行操控時非常方便，本文就將針對這兩個類的使用方法展開介

win10系統批處理垃圾檔案的操作方法

電腦用久了會堆積的越來越多程式，導致win10系統C盤變得越來越小，如果不及時清理無用檔案會影響系統執行速度。清理垃圾可以採用批量處理的方法，提高工作效率，下面一起看看win10系統批處理垃圾檔案的操作方法。

Python在字串中處理html和xml的方法

問題你想將HTML或者XML實體如 &entity; 或 &#code; 替換為對應的文字。再者，你需要轉換文字中特定的字元(比如<,>,或 &)。

ASP.NET Core中修改配置檔案後自動載入新配置的方法詳解

前言在 ASP.NET Core 預設的應用程式模板中，配置檔案的處理如下面的程式碼所示：

自動以管理員身份執行批處理bat檔案(vbs與bat兩種方法)

但是，批處理指令碼不會預設已管理員身份執行，一般情況下，我會將指令碼命名為\"XXXXXX(請右鍵點選，用管理員身份執行!).bat\"，但總有些使用者會忽略這條提示，直接執行，此時由於許可權不足，導致指令碼執行失敗。

Python中處理命令列引數的3種方法

作者|Dardan Xhymshiti 編譯|VK 來源|Towards Data Science 1.sys模組 Python中的sys模組具有argv功能。當通過終端觸發main.py的執行時，此功能返回所有命令列引數的列表。返回列表中的第一個元素是main.py.

【解決方法】因為 'PRIMARY' 檔案組已滿。請刪除不需要的檔案、刪除檔案組中的物件、將其他檔案新增到檔案組或為檔案組中的現有檔案啟用自動增長，以便增加可用磁碟空間

文章目錄平臺問題描述解決問題 1、檢視資料庫資料檔案存放路徑 2、檢視存放路徑的盤是否已滿

pandas 中處理大型檔案的方法

讀取資料

查看錶的行列資訊，有多少行，多少列

查看錶的記憶體資訊

檢視不同內型別所佔用的記憶體空間大小

定義一個函式，來判定輸入的資料大小

針對 int 型別進行向下轉換 downcast

選擇目標表中 字元型別為int64的列

將對應的列，進行向下轉換

針對float 型別進行向下轉換

選擇目標表中 字元型別為float64的列

將對應的列，進行向下轉換

複製一個表，將轉換的列進行

針對整個表進行比對，看資料是否有真的進行縮減

結論 通過int64 轉int32 ,或者float64 轉float32 可以將資料進行一定的縮減，但是效果並不是很明顯

obj字串中，該型別的佔比較大，縮減可以主要通過他來進行儲存進行縮減

賽選出所有字串的欄位出來

針對字串的進行描述

判定 當 unique 數值 遠遠小於 count 的數值時候，可以將設定記憶體地址–category，減少空間使用

定義一個函式，將所有的列進行字串的大小轉換

效果轉換明顯

相關推薦

選擇目標表中字元型別為int64的列

選擇目標表中字元型別為float64的列

結論通過int64 轉int32 ,或者float64 轉float32 可以將資料進行一定的縮減，但是效果並不是很明顯

判定當 unique 數值遠遠小於 count 的數值時候，可以將設定記憶體地址–category，減少空間使用