1. 程式人生 > 程式設計 >pandas中read_csv的缺失值處理方式

pandas中read_csv的缺失值處理方式

今天遇到的問題是,要將一份csv資料讀入dataframe,但某些列中含有NA值。對於這些列來說,NA應該作為一個有意義的level,而不是缺失值,但read_csv函式會自動將類似的缺失值理解為缺失值並變為NaN。

看pandas文件中read_csv函式中這兩個引數的描述,預設會將'-1.#IND',‘1.#QNAN',‘1.#IND',‘-1.#QNAN',‘#N/A N/A','#N/A',‘N/A',‘NA',‘#NA',‘NULL',‘NaN',‘-NaN',‘nan',‘-nan',''轉換為NaN,且na_values引數還支援定義另外的應處理為缺失值的值。

值得注意的是keep_default_na引數,這個引數的作用是決定要不要保留預設應該轉換的缺失值列表,將這個引數設為False之後同時不定義na_values引數,就可以在讀取檔案時不將任何值轉換為缺失值NaN。

例:

import pandas as pd
df = pd.read_csv('train.csv',keep_default_na=False)

以上這篇pandas中read_csv的缺失值處理方式就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支援我們。