1. 程式人生 > 實用技巧 >Kaggle-pandas(1)

Kaggle-pandas(1)

Creating-reading-and-writing

戳我進原網站

教程

1.建立與匯入

DataFrame

import pandas as pd
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

生成的表如下:

我們正在使用pd.DataFrame()建構函式來生成這些DataFrame物件。 宣告新字典的語法是字典,其關鍵字是列名(在此示例中為Yes和No),其值是條目列表。 這是構造新DataFrame的標準方法,也是您最有可能遇到的一種方法。
字典列表建構函式將值分配給列標籤,但僅對行標籤使用從0(0、1、2、3,...)開始的遞增計數。 有時這可以,但是通常我們會自己分配這些標籤。

DataFrame中使用的行標籤列表稱為索引。 我們可以通過在建構函式中使用index引數來為其賦值:

pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Series

相比之下,系列是資料值的序列。 如果DataFrame是表,則Series是列表。 實際上,您可以建立一個只包含一個列表的列表:

本質上,Series是DataFrame的單個列。 因此,您可以使用索引引數,以與以前相同的方式將列值分配給Series。 但是,系列沒有列名,只有一個整體名:

Series和DataFrame密切相關。 認為DataFrame實際上只是一堆“膠合在一起”的Series很有幫助。 我們將在本教程的下一部分中看到更多資訊。

2.讀取資料檔案

能夠手動建立DataFrame或Series很方便。 但是,在大多數情況下,我們實際上不會手工建立自己的資料。 相反,我們將使用已經存在的資料。
資料可以多種不同形式和格式儲存。 到目前為止,最基本的是不起眼的CSV檔案。 當您開啟CSV檔案時,您將獲得如下所示的內容:

因此,CSV檔案是由逗號分隔的值表。 因此,名稱為:“逗號分隔值(Comma-Separated Values")”或CSV。

現在讓我們擱置玩具資料集,看看當我們將其讀入DataFrame時真實資料集的外觀。 我們將使用pd.read_csv()函式將資料讀取到DataFrame中。