被 Pandas read_csv 坑了

阿新 • • 發佈：2020-12-20

## 被 Pandas read_csv 坑了 -- 不怕前路坎坷，只怕從一開始就走錯了方向 **Pandas** 是python的一個數據分析包，納入了大量庫和一些標準的資料模型，提供了高效地操作大型資料集所需的工具。Pandas 就是為解決資料分析任務生的，無論是資料分析還是機器學習專案資料預處理中， Pandas 無處不在。最近掉進一坑，差點鑄成大錯。實在沒想到居然栽在pandas.read_csv上了，這裡分享一下，希望大家注意。另：業務資料不方便拿出來演示，為儘可能復現，這裡我手造了一份，另存為 income.csv 檔案。 ![看起來都是正經的資料](https://my-wechat.oss-cn-beijing.aliyuncs.com/image_20201217223946.png) ## 翻船記讀取csv檔案小菜一碟 ``` import numpy as np import pandas as pd df = pd.read_csv(r'C:\...\income.csv',encoding='utf-8') ``` 讀好了看看資料資訊吧： ``` df.info() RangeIndex: 6 entries, 0 to 5 Data columns (total 1 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 income 6 non-null object dtypes: object(1) memory usage: 176.0+ bytes ``` 誒，怎麼資料成了object？不應該是float嗎？不管他，硬轉一發 ``` df=pd.DataFrame(df,dtype=np.float) ``` 居然報錯了，1000被讀成了字串。 ![](https://my-wechat.oss-cn-beijing.aliyuncs.com/image_20201217225004.png) 其實這裡我還掉進了另一個坑，使用了一個已被棄用的 .convert_objects 方法。這種方法更硬，直接把string轉成了NaN，所以後面各種操作流暢且錯誤地進行著....這都是 pandas 沒升級的鍋，定期檢查升級包太有必要了（[pip 的高階玩法](https://mp.weixin.qq.com/s?__biz=MzA4MjYwMTc5Nw==&mid=2648944700&idx=1&sn=c9d663a96bbd72a67e6946e24494ad9d&chksm=87942216b0e3ab001e185612eb465dcc8b192b3bf06ba191889cd7d00c03b1d6149500870e8e&token=1454358884&lang=zh_CN#rd)）說回剛才的問題，1,000被讀成了字串是因為csv檔案中它使用了千位分隔符。問題其實非常簡單，設定一下 **thousands** 引數就行了 ``` df2 = pd.read_csv(r'C:\...\income.csv',encoding='utf-8',thousands =',') ``` 看一下info ``` df2.

被 Pandas read_csv 坑了

被 Pandas read_csv 坑了

租房時被分期貸款坑了！！！

你可能被openURL給坑了

hdu1258 被簡單搜尋坑了

被小程式坑了這幾點，你遇到了嗎？

實錄：我被緩存TP的緩存文件坑了一晚上！

參數binlog_row_image設置MINIMAL，你今天被坑了嗎？

你被路由中的中文坑了嗎

poi操作Excel 被bug坑了getLastRowNum，getPhysicalNumberOfRows，getPh

程式設計師面試7輪辛苦拿到offer，卻被壓薪資，感覺被坑了！

差點又被移動坑了

又被引用傳遞引數坑了

看到招聘廣告上寫這些，你可要小心，別被坑了！

VMware tool 和window共享資料夾，被坑了許久！！！

被swap坑了

我的嵌入式5年 VS 我被國嵌的視訊坑了的日子

這樣用信用卡就好了?其實你這是被坑了

今天我被坑了 Bigdecimal型別判斷是否等於0（用equals方法的坑）

被坑了，js語法跟Java面向物件語法還是有區別的

記C++坑：1.被自己坑了一次的全域性變數使用

被 Pandas read_csv 坑了

相關推薦