如何用pandas讀取和匯入csv資料檔案
我們利用python進行資料分析時,pandas中的DataFrame資料結構是最基本最常用的,因此本文將說明如何利用pandas中的方法讀取csv檔案中的資料,以及如何把DataFrame物件的資料匯入到csv檔案中儲存。
關於匯入資料,可以直接用DataFrame物件的to_csv方法,這個方法引數有很多,見圖一。這裡介紹三個重要引數:path_or_buf、mode、header,其中path_or_buf自然就是要匯入的檔案路徑,mode預設為w,表示寫入,但注意是清空檔案的原資料再寫入,因此如何我們每次寫入是追加資料,那麼可以把'w'改為'a',表示追加資料;header表示DataFrame物件的列名,預設為True,即寫入列名,但是當我們是追加資料時,往往不再需要列名,這時可以設為False,只追加資料,不重複寫入列名。
圖一
接下來是從csv檔案讀取資料,可以利用pandas的read_csv方法,同樣的這個方法有很多的引數,使用也很靈活,本文不再做詳細介紹,使用者可以自己檢視文件。但是這裡筆者要起那個強調的是,這個方法預設的讀取方式是把檔案中的第一行作為列名,剩下的作為資料內容,並自設數字索引。因為to_csv的預設匯入是把原DataFrame物件的index放在第一列的,所以如果是從這樣的資料檔案再次讀取的話,那麼原DataFrame中的index會變成新DataFrame物件的列,需要使用者自己再重新設定一下index。