Kaggle-pandas(1)
阿新 • • 發佈:2020-07-30
Creating-reading-and-writing
教程
1.建立與匯入
DataFrame
import pandas as pd pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})
生成的表如下:
我們正在使用pd.DataFrame()建構函式來生成這些DataFrame物件。 宣告新字典的語法是字典,其關鍵字是列名(在此示例中為Yes和No),其值是條目列表。 這是構造新DataFrame的標準方法,也是您最有可能遇到的一種方法。
字典列表建構函式將值分配給列標籤,但僅對行標籤使用從0(0、1、2、3,...)開始的遞增計數。 有時這可以,但是通常我們會自己分配這些標籤。
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']}, index=['Product A', 'Product B'])
Series
相比之下,系列是資料值的序列。 如果DataFrame是表,則Series是列表。 實際上,您可以建立一個只包含一個列表的列表:
本質上,Series是DataFrame的單個列。 因此,您可以使用索引引數,以與以前相同的方式將列值分配給Series。 但是,系列沒有列名,只有一個整體名:
Series和DataFrame密切相關。 認為DataFrame實際上只是一堆“膠合在一起”的Series很有幫助。 我們將在本教程的下一部分中看到更多資訊。
2.讀取資料檔案
能夠手動建立DataFrame或Series很方便。 但是,在大多數情況下,我們實際上不會手工建立自己的資料。 相反,我們將使用已經存在的資料。
資料可以多種不同形式和格式儲存。 到目前為止,最基本的是不起眼的CSV檔案。 當您開啟CSV檔案時,您將獲得如下所示的內容:
因此,CSV檔案是由逗號分隔的值表。 因此,名稱為:“逗號分隔值(Comma-Separated Values")”或CSV。