Python筆記:pandas之資料載入與儲存
阿新 • • 發佈:2021-07-07
資料載入、儲存與檔案格式
讀寫文字格式的資料
#pandas提供了一些用於將表格型資料讀取為DataFrame物件的函式。 read_csv #從檔案、URL、檔案型物件中載入帶分隔符的資料。預設分隔符為逗號。 read_table #從檔案、URL、檔案型物件中載入帶分隔符的資料。預設分隔符為製表符('\t') read_fwf #讀取定寬列格式資料(也就是說,沒有分隔符) read_clipboard #讀取剪貼簿中的資料,可以看做是read_table的剪貼簿版。在將網頁轉換為表格時很有用 read_excel #從excel xls或xlsx file讀取表格資料 read_hdf #讀取pandas寫的HDF5檔案 read_html #讀取HTML文件中的所有表格 read_json #讀取JSON字串中的資料 read_msgpack #二進位制編碼的pandas資料 read_pickle #讀取python pickle格式中儲存的任意物件 read_sas #讀取儲存於SAS系統自定義格式的SAS資料集 read_sql #讀取資料庫中的資料 read_stata #讀取Stata檔案格式的資料集 read_feather #讀取Feather二進位制檔案 #read_csv、read_table函式的引數,同時也適用於其他讀取檔案的函式。 path #表示需要讀取的檔案路徑和檔名 sep或delimiter #用於對行中各欄位進行拆分的字元序列或正則表示式 header #指定檔案中第幾行的資料為列名。預設為0(第一行),如果沒有header行就應該設定為None index_col #用於指定行號。可以是單個名稱、數字或由多個名稱、數字組成的列表(層次化索引) names #用於指定列名 skiprows #需要忽略的行數(從檔案開始處算起) na_values #一組用於替換NA的值 comment #用於將註釋資訊從行尾拆分出去的字元(一個或多個) parse_dates #嘗試將資料解析為日期,預設為False。如果為True,則嘗試解析所有列,也可以指定需要解析的一組列號或列名。如果列表中的元素為列表或元組,就會將多個列組合到一起再進行日期解析工作 keep_date_col #如果連線多列解析日期,則保持參與連線的列。預設為False converters #由列號/列名跟函式之間的對映關係組成的字典。例如,{'foo':f}會對foo列的所有值應用函式f dayfirst #當解析有歧義的日期時,將其看做國際格式。預設為False date_parser #用於解析日期的函式 nrows #需要讀取的行數(從檔案開始處算起) iterator #返回一個TextParser以便逐塊讀取檔案 chunksize #檔案塊的大小(用於迭代) skip_footer #需要忽略的行數(從檔案末尾處算起) verbose #列印各種解析器輸出資訊,比如“非數值列中缺失值的數量”等 encoding #用於unicode的文字編碼格式 squeeze #如果資料經解析後僅含一列,則返回Series thousands #千分位分隔符,如“,”或“.”
將資料寫出
pd.to_csv() #將資料輸出為CSV檔案 pd.to_sql() #將資料輸入到SQL資料庫中
#如果要寫入excel中,需要建立一個ExcelWriter
writer = pd.ExcelWriter('test.xlsx') pd.to_excel(wrtier, 'Sheet1') #將資料寫入到EXCEl檔案中
wrtier.save()
#如果要讀取一個excel檔案,需要建立一個例項
xlsx = pd.ExcelFile('test.xlsx')