1. 程式人生 > 其它 >Python筆記:pandas之資料載入與儲存

Python筆記:pandas之資料載入與儲存

資料載入、儲存與檔案格式

讀寫文字格式的資料

#pandas提供了一些用於將表格型資料讀取為DataFrame物件的函式。
read_csv            #從檔案、URL、檔案型物件中載入帶分隔符的資料。預設分隔符為逗號。
read_table          #從檔案、URL、檔案型物件中載入帶分隔符的資料。預設分隔符為製表符('\t')
read_fwf            #讀取定寬列格式資料(也就是說,沒有分隔符)
read_clipboard      #讀取剪貼簿中的資料,可以看做是read_table的剪貼簿版。在將網頁轉換為表格時很有用
read_excel          #從excel xls或xlsx file讀取表格資料
read_hdf            #讀取pandas寫的HDF5檔案
read_html           #讀取HTML文件中的所有表格
read_json           #讀取JSON字串中的資料
read_msgpack        #二進位制編碼的pandas資料
read_pickle         #讀取python pickle格式中儲存的任意物件
read_sas            #讀取儲存於SAS系統自定義格式的SAS資料集
read_sql            #讀取資料庫中的資料
read_stata          #讀取Stata檔案格式的資料集
read_feather        #讀取Feather二進位制檔案

#read_csv、read_table函式的引數,同時也適用於其他讀取檔案的函式。
path                #表示需要讀取的檔案路徑和檔名
sep或delimiter      #用於對行中各欄位進行拆分的字元序列或正則表示式
header              #指定檔案中第幾行的資料為列名。預設為0(第一行),如果沒有header行就應該設定為None
index_col           #用於指定行號。可以是單個名稱、數字或由多個名稱、數字組成的列表(層次化索引)
names               #用於指定列名
skiprows            #需要忽略的行數(從檔案開始處算起)
na_values           #一組用於替換NA的值
comment             #用於將註釋資訊從行尾拆分出去的字元(一個或多個)
parse_dates         #嘗試將資料解析為日期,預設為False。如果為True,則嘗試解析所有列,也可以指定需要解析的一組列號或列名。如果列表中的元素為列表或元組,就會將多個列組合到一起再進行日期解析工作
keep_date_col       #如果連線多列解析日期,則保持參與連線的列。預設為False
converters          #由列號/列名跟函式之間的對映關係組成的字典。例如,{'foo':f}會對foo列的所有值應用函式f
dayfirst            #當解析有歧義的日期時,將其看做國際格式。預設為False
date_parser         #用於解析日期的函式
nrows               #需要讀取的行數(從檔案開始處算起)
iterator            #返回一個TextParser以便逐塊讀取檔案
chunksize           #檔案塊的大小(用於迭代)
skip_footer         #需要忽略的行數(從檔案末尾處算起)
verbose             #列印各種解析器輸出資訊,比如“非數值列中缺失值的數量”等
encoding            #用於unicode的文字編碼格式
squeeze             #如果資料經解析後僅含一列,則返回Series
thousands           #千分位分隔符,如“,”或“.”

將資料寫出

pd.to_csv()       #將資料輸出為CSV檔案
pd.to_sql()       #將資料輸入到SQL資料庫中


#如果要寫入excel中,需要建立一個ExcelWriter
writer = pd.ExcelWriter('test.xlsx') pd.to_excel(wrtier, 'Sheet1') #將資料寫入到EXCEl檔案中
wrtier.save()

#如果要讀取一個excel檔案,需要建立一個例項
xlsx = pd.ExcelFile('test.xlsx')