pandas的read_csv函數
pd.read_csv(filepath_or_buffer, sep=‘,‘, delimiter=None, header=‘infer‘, names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression=‘infer‘, thousands=None, decimal=b‘.‘, lineterminator=None, quotechar=‘"‘, quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)
filepath_or_buffer:
文件的地址,可以是url。
sep:
分隔符的指定。
delimiter:
str,定界符,如果指定該參數,sep參數失效。
delim_whitespace :boolean,
default False. 指定空格(例如’ ‘或者’ ‘)是否作為分隔符使用,等效於設定sep=‘\s+‘。
header :
int or list of ints, default ‘infer’ ,指定行數用來作為列名。如果文件中沒有列名,則默認為0,否則設置為None。
names :
array-like, default None 用於結果的列名列表,對各列重命名,即添加表頭。 如數據有表頭,但想用新的表頭,可以設置header=0,names=[‘a‘,‘b‘]實現表頭定制。
index_col :
int or sequence or False, default None 用作行索引的列編號或者列名,如果給定一個序列則有多個行索引。 可使用index_col=[0,1]來指定文件中的第1和2列為索引列。
usecols :
array-like, default None 返回一個數據子集,即選取某幾列,不讀取整個文件的內容,有助於加快速度和降低內存。 usecols=[1,2]或usercols=[‘a‘,‘b‘]
squeeze :
boolean, default False 如果文件只包含一列,則返回一個Series。
prefix :
str, default None 在沒有列標題時,給列添加前綴。例如:添加‘X’ 成為 X0, X1, ...
mangle_dupe_cols :
boolean, default True 重復的列,將‘X’...’X’表示為‘X.0’...’X.N’。如果設定為False則會將所有重名列覆蓋。
dtype :
Type name or dict of column -> type, default None 每列數據的數據類型。例如 {‘a’: np.float64, ‘b’: np.int32}。
engine :
{‘c’, ‘python’}, optional 使用的分析引擎。可以選擇C或者是python。C引擎快但是Python引擎功能更加完備。
converters :
dict, default None 列轉換函數的字典。key可以是列名或者列的序號。
日期類型相關參數:
parse_dates :
boolean or list of ints or names or list of lists or dict, default False 。
boolean. True -> 解析索引 list of ints or names. e.g. If [1, 2, 3] -> 解析1,2,3列的值作為獨立的日期列;
list of lists. e.g. If [[1, 3]] -> 合並1,3列作為一個日期列使用
dict, e.g. {‘foo’ : [1, 3]} -> 將1,3列合並,並給合並後的列起名為"foo"。
示例:
df=pd.read_csv(file_path,parse_dates=[‘time1‘,‘time2‘]), 把time1和time2兩列解析為日期格式。
這裏不得不說,很遺憾中文不行,比如‘4月5日’這種格式就不能解析。
infer_datetime_format :
boolean, default False 如果設定為True並且parse_dates 可用,那麽pandas將嘗試轉換為日期類型,如果可以轉換,轉換方法並解析。 在某些情況下會快5~10倍。
keep_date_col :
boolean, default False 如果連接多列解析日期,則保持參與連接的列。默認為False。
date_parser :
function, default None 於解析日期的函數,默認使用dateutil.parser.parser來做轉換。
Pandas嘗試使用三種不同的方式解析,如果遇到問題則使用下一種方式。
1.使用一個或者多個arrays(由parse_dates指定)作為參數;
2.連接指定多列字符串作為一個列作為參數;
3.每行調用一次date_parser函數來解析一個或者多個字符串(由parse_dates指定)作為參數。
dayfirst :
boolean, default False DD/MM格式的日期類型。
轉載:https://blog.csdn.net/liuweiyuxiang/article/details/78471036
pandas的read_csv函數