Python資料處理效能對比,原生,Pandas,Numpy哪個更優秀
阿新 • • 發佈:2019-01-07
今天為大家分享一個關於資料處理效能的對比,從原生,Pandas ,Numpy這三個方面對比?你覺得哪個更優秀呢?對於一個數據科學家來說,速度和時間是一個很至關重要的的因素
下圖顯示了我的實驗結果(詳情如下),與純Python的處理速度做出對比。
如你所見,Numpy的表現比Pandas的表現要好幾倍。我個人喜歡用Pandas來簡化許多繁瑣的資料科學任務,它是我的首選工具。但是如果預計的處理時間超過多個小時,那麼很遺憾,我只能使用Numpy來替代Pandas。
我非常清楚實際的效能可能會有很大的不同,這取決於任務和處理型別。所以請把這些結果僅僅作為參考。沒有任何一個單獨的測試可以全面對比所有軟體工具的效能。
簡介
在下面的 Notebook 中你將會比較 Python 原生方法, Pandas 和 Numpy 處理資料的速度。
更多Python視訊、原始碼、資料加群960410445免費獲取
匯入模組
製作模擬隨機資料集
Dataset size 54818 records
Python 原生方法
Pandas 方法
Numpy 方法
檢查是否所有的方法生成同樣的結果
比較執行時間
Python average time: 38.77917420864105 seconds
Pandas average time: 10.483694124221802 seconds
Numpy average time: 2.914765810966492 seconds
展示結果