Python學習筆記：高效資料格式feather（鴻毛）

阿新 • • 發佈：2021-09-13

一、背景

日常使用 Python 讀取資料時一般都是 json、csv、txt、xlsx 等格式，或者直接從資料庫讀取。

針對大資料量一般儲存為 csv 格式，但檔案佔用空間比較大，儲存和載入速度也較慢。

而 feather 便是一種速度更快、更加輕量級（壓縮後）的二進位制儲存格式。

二、feather是什麼？

Feather 是一種用於儲存資料幀的資料格式。

一句話描述：高速讀寫壓縮二進位制檔案。

Feather 其實是 Apache Arrow 專案中包含的一種資料格式，但是由於其優異的效能，該檔案格式也被單獨打包，放在 pip 中進行安裝。

Pandas 也支援對 Feather 的讀寫操作。

最初是為了 Python 和 R 之間快速互動而設計的，初衷很簡單，就是儘可能高效地完成資料在記憶體中轉換的效率。

難能可貴的是，R、Julia、python 均可以解析 feather ，可以說是3種語言之間進行互動的強力工具了，讀寫速度一流。

現在 Feather 也不僅限於 Python 和 R ，基本每種主流的程式語言中都可以用 Feather 檔案。

不過，它的資料格式並不是為長期儲存而設計的，僅限於一般的短期儲存。

-- 此處不好理解：長期？短期？如何界定？

-- 如果長期儲存，feather 的空間壓縮並不是最好的，可以瞭解下 Parquet。feather也可以長期儲存，只不過不是最優解。

三、使用方法

在 Python 中，可以通過 pandas 或 Feather 兩種方式進行操作。

但建議不要使用 pandas 自帶的 to_feather 和 read_feather 。因為版本相容性的問題，直接使用 feather 自帶的 api 更優。

1.安裝

注意：不要直接使用 pip install feather 進行安裝，能正常顯示安裝但是讀取時會報錯 ImportError: cannot import name 'getuid' from 'os' (D:\anaconda\lib\os.py)。

# pip
pip install feather-format
# 依賴會安裝：pyarrow-5.0.0-cp38-cp38-win_amd64.whl

# conda
conda install -c conda-forgefeather-format # 測試報錯

2.測試資料集

構建一個 5 列、1000 萬行隨機數。

import feather
import pandas as pd
import numpy as np

import os
os.chdir(r'C:\Users\111\Desktop')

np.random.seed = 2021
df_size = 10000000

df = pd.DataFrame({
    'a': np.random.rand(df_size),
    'b': np.random.rand(df_size),
    'c': np.random.rand(df_size),
    'd': np.random.rand(df_size),
    'e': np.random.rand(df_size)
    })
df.head()
'''
          a         b         c         d         e
0  0.515694  0.879751  0.346675  0.998066  0.647965
1  0.648172  0.044250  0.546985  0.668001  0.460173
2  0.774530  0.354780  0.034965  0.259252  0.037479
3  0.843657  0.956277  0.059882  0.394459  0.088319
4  0.263218  0.409887  0.149357  0.971544  0.657425
'''

3.pandas操作方式

儲存

可以直接利用 DataFrame.to_feather() 進行儲存。使用語法為：

df.to_feather(path, compression, compression_level)
# -- path:檔案路徑
# -- compression：是否壓縮以及如何壓縮，支援（zstd/uncompressde/lz4)三種方式
# -- compression_level：壓縮水平（lz4不支援該引數）

df.to_feather('data.feather')

載入

df = pd.read_feather('data.feather')

4.feather操作方式

原生 feather 方式與 pandas 操作方式類似，速度也差不多。

儲存

feather.write_dataframe(df, 'data2.feather')

載入

df = feather.read_dataframe('data2.feather')

5.csv VS feather

寫入速度對比

# 匯入時間模組
import time

# 1.傳統csv方式
start = time.time()
df.to_csv('data_csv.csv')
end = time.time()
print('CSV Running time: %s Seconds' % (end-start))

# 2.原生feather
start = time.time()
feather.write_dataframe(df, 'data_feather_ys.feather')
end = time.time()
print('YS-feather Running time: %s Seconds' % (end-start))

# 3.pandas-feather
start = time.time()
df.to_feather('data_feather_pd.feather')
end = time.time()
print('Pd-feather Running time: %s Seconds' % (end-start))
'''
CSV Running time: 93.85435080528259 Seconds
YS-feather Running time: 0.3590412139892578 Seconds
Pd-feather Running time: 4.7694432735443115 Seconds
'''

讀取速度對比

# 匯入時間模組
import time

# 1.傳統csv方式
start = time.time()
df1 = pd.read_csv('data_csv.csv')
end = time.time()
print('CSV Running time: %s Seconds' % (end-start))

# 2.原生feather
start = time.time()
df2 = feather.read_dataframe('data_feather_ys.feather')
end = time.time()
print('YS-feather Running time: %s Seconds' % (end-start))

# 3.pandas-feather
start = time.time()
df3 = pd.read_feather('data_feather_pd.feather')
end = time.time()
print('Pd-feather Running time: %s Seconds' % (end-start))

'''
CSV Running time: 11.32979965209961 Seconds
YS-feather Running time: 0.34105563163757324 Seconds
Pd-feather Running time: 0.45678043365478516 Seconds
'''

檔案大小對比

# 肉眼對比
data_csv.csv             -- 0.97G
data_feather_ys.feather  -- 381M
data_feather_pd.feather  -- 381M

# 利用os獲取檔案大小（單位：MB）
import os
def get_FileSize(filePath):
    filePath = str(filePath)
    fsize = os.path.getsize(filePath)
    fsize = fsize / float(1024 * 1024)
    return round(fsize, 2)

print(get_FileSize('data_feather_ys.feather'))
print(get_FileSize('data_feather_pd.feather'))
print(get_FileSize('data_csv.csv'))
381.57 MB
381.57 MB
1003.63 MB

# 計算壓縮率
standart_ratio = os.stat('data_feather_ys.feather').st_size / os.stat('data_csv.csv').st_size
print(f'Standart feather compression ratio is {standart_ratio*100 :.1f}%')
# Standart feather compression ratio is 38.0%

四、總結

Feather 相比 csv 格式擁有明顯的效能提升。

適合中型資料（GB為單位的資料），比如4GB的csv檔案，可能只佔用700M的feather檔案空間
讀寫速度遠勝csv，而且相比較於資料庫又具有便攜的優勢，可以作為很好的中間媒介來傳輸資料
類似於csv，feather也支援從原始檔中僅讀取所需要的列，可以減少記憶體的使用

df = pd.read_feather(path='data.feather', columns=["a","b","c"])

Parquet 是一種追求更多的壓縮空間的資料格式，也可以考慮替代 csv 格式。

參考連結：再見 CSV，速度提升 150 倍！

參考連結python讀feather格式檔案

參考連結：feather——高效能的python資料讀寫

參考連結：輕如“鴻毛（Feather）”的檔案格式卻重於泰山

Python學習筆記：高效資料格式feather（鴻毛）

一、背景日常使用 Python 讀取資料時一般都是 json、csv、txt、xlsx 等格式，或者直接從資料庫讀取。

Python學習筆記：拼接資料框中所有列

一、笨辦法：迴圈拼接 import pandas as pd import numpy as np df = pd.DataFrame({\'user_id\':[\'A\',\'B\',\'C\',\'D\',\'E\'],

Chromium學習筆記：程式啟動入口分析（Windows）

Chromium學習筆記：程式啟動入口分析（Windows）以下筆記內容均為Windows版本。本篇筆記跟蹤記錄了Chromium的啟動過程，主要關注Browser程序和Renderer程序。根據Chromium專案的分層設計，我們把Content API稱

Dapr牽手.NET學習筆記：狀態管理進階（一）

　　在上一篇文章中說到，dapr預設的狀態是不可能跨appid的，也就是隻能在相同的應用內訪問自己設定的狀態資料，dapr支援三種狀態的共享配置：appid，nam，none，是通過修改components下的statestore.yaml檔案中的ke

Python學習筆記：一維資料的插值

插值是離散函式逼近的重要方法，利用它可通過函式在有限個點處的取值狀況，估算出函式在其它點處的近似值。與擬合不同的是，要求曲線通過所有的已知資料。SciPy的interpolate模組提供了許多對資料進行插值

Python學習筆記：處理Excel資料

資料來源《Python程式設計快速上手--讓繁瑣工作自動化》需要安裝並匯入openpyxl模組

Python學習筆記：pandas篩選資料

pandas 擁有強大的資料清洗能力，可以極大的簡化資料處理工作。一、資料載入及EDA

Python學習筆記：pd.filter、query篩選資料

一、pd.filter函式 1.介紹 pd.filter 函式根據指定的索引標籤對資料框行、或列進行資料篩選（子集查詢）。

Python學習筆記：方法重寫的理解

方法的重寫：如果你的基類（父類）方法的功能不能滿足你的需求，在派生類（子類）中重寫定義一個基類擁有的方法，呼叫時使用派生類中重寫定義的方法。

Python學習筆記：裝飾器(Decorator)

最近看到兩篇寫的非常好的知識文章：如何理解Python裝飾器，理解Python裝飾器(Decorator),對我理解python中的裝飾器有非常大的作用。現將其記錄下來，方便以後溫故知新。

學習筆記：高階資料結構【2020落谷省選夏令營】

習題方差拆式子，維護支援求區間平方和和區間和的線段樹，記一個加法懶標記。

python學習筆記：函式、裝飾器

技術標籤：python 函式注:python中無函式過載定義函式格式: def 函式名(引數列表):

Java學習筆記：3.資料型別

三、資料型別 Java是一種強型別語言，要求變數的使用嚴格規定，所有變數都必須先定義後才可使用

位元組跳動學習筆記：百萬資料分頁查詢的方法及其優化方式

位元組跳動學習筆記：百萬資料分頁查詢的方法及其優化方式容器化時代來了

Python學習筆記：函式和lambda表示式

第五章函式與lambda表示式函式是執行特定任務的一段程式碼，程式通過將一段程式碼定義成函式，併為該函式指定一個函式名，這樣即可在需要的時候多次呼叫這段程式碼。因此，函式是程式碼複用的重要手段。

Python學習筆記：模組和包

第九章模組和包模組化程式設計匯入模組的語法使用import匯入模組，主要有兩種用法：

Python學習筆記：異常處理

第七種異常處理 Python的異常機制主要依賴 try、except、else、finally和raise五個關鍵字，其中在try關鍵字後縮排的程式碼塊簡稱try塊，它裡面放置的是可能引發異常的程式碼；在except後對應的是異常型別和一個程式

Python學習筆記：replace方法替換字元

一、字串替換 replace() 方法用於替換字串。語法為： string.replace(oldvalue, newvalue, count)

Python學習筆記：pandas.Series.str.split分列

一、字串分割split split() 方法通過指定分隔符對字串進行切分，返回分割後的字串列表。

Python學習筆記：pandas.series.between方法

一、介紹 between() 方法用於 Series 檢查哪個值處在第一個、和第二個引數之間。

Python學習筆記：高效資料格式feather（鴻毛）

一、背景

二、feather是什麼？

三、使用方法

1.安裝

2.測試資料集

3.pandas操作方式

4.feather操作方式

5.csv VS feather

四、總結

相關推薦