Python筆記：pandas之資料載入與儲存

阿新 • • 發佈：2021-07-07

資料載入、儲存與檔案格式

讀寫文字格式的資料

#pandas提供了一些用於將表格型資料讀取為DataFrame物件的函式。
read_csv            #從檔案、URL、檔案型物件中載入帶分隔符的資料。預設分隔符為逗號。
read_table          #從檔案、URL、檔案型物件中載入帶分隔符的資料。預設分隔符為製表符（'\t'）
read_fwf            #讀取定寬列格式資料（也就是說，沒有分隔符）
read_clipboard      #讀取剪貼簿中的資料，可以看做是read_table的剪貼簿版。在將網頁轉換為表格時很有用
read_excel          #從excel xls或xlsx file讀取表格資料
read_hdf            #讀取pandas寫的HDF5檔案
read_html           #讀取HTML文件中的所有表格
read_json           #讀取JSON字串中的資料
read_msgpack        #二進位制編碼的pandas資料
read_pickle         #讀取python pickle格式中儲存的任意物件
read_sas            #讀取儲存於SAS系統自定義格式的SAS資料集
read_sql            #讀取資料庫中的資料
read_stata          #讀取Stata檔案格式的資料集
read_feather        #讀取Feather二進位制檔案

#read_csv、read_table函式的引數，同時也適用於其他讀取檔案的函式。
path                #表示需要讀取的檔案路徑和檔名
sep或delimiter      #用於對行中各欄位進行拆分的字元序列或正則表示式
header              #指定檔案中第幾行的資料為列名。預設為0（第一行），如果沒有header行就應該設定為None
index_col           #用於指定行號。可以是單個名稱、數字或由多個名稱、數字組成的列表（層次化索引）
names               #用於指定列名
skiprows            #需要忽略的行數（從檔案開始處算起）
na_values           #一組用於替換NA的值
comment             #用於將註釋資訊從行尾拆分出去的字元（一個或多個）
parse_dates         #嘗試將資料解析為日期，預設為False。如果為True，則嘗試解析所有列，也可以指定需要解析的一組列號或列名。如果列表中的元素為列表或元組，就會將多個列組合到一起再進行日期解析工作
keep_date_col       #如果連線多列解析日期，則保持參與連線的列。預設為False
converters          #由列號/列名跟函式之間的對映關係組成的字典。例如，{'foo':f}會對foo列的所有值應用函式f
dayfirst            #當解析有歧義的日期時，將其看做國際格式。預設為False
date_parser         #用於解析日期的函式
nrows               #需要讀取的行數（從檔案開始處算起）
iterator            #返回一個TextParser以便逐塊讀取檔案
chunksize           #檔案塊的大小（用於迭代）
skip_footer         #需要忽略的行數（從檔案末尾處算起）
verbose             #列印各種解析器輸出資訊，比如“非數值列中缺失值的數量”等
encoding            #用於unicode的文字編碼格式
squeeze             #如果資料經解析後僅含一列，則返回Series
thousands           #千分位分隔符，如“,”或“.”

將資料寫出

pd.to_csv()       #將資料輸出為CSV檔案
pd.to_sql()       #將資料輸入到SQL資料庫中


#如果要寫入excel中，需要建立一個ExcelWriter
writer = pd.ExcelWriter('test.xlsx')
pd.to_excel(wrtier, 'Sheet1')    #將資料寫入到EXCEl檔案中
wrtier.save()

#如果要讀取一個excel檔案，需要建立一個例項
xlsx = pd.ExcelFile('test.xlsx')