pandas資料結構介紹

阿新 • • 發佈：2019-01-18

pandas是基於NumPy構建的，它以NumPy為中心的應用變得更加簡單。
pandas的資料結構介紹
Series
Series是一種類似於一維陣列的物件，它由一組資料（各種Numpy的資料型別）以及一組與之相關的資料標籤（即索引）組成。僅由一組資料即可產生最簡單的Series
obj=Series([4,7,-5,3])
Series的字串表現形式為：索引在左邊，值在右邊。由於我們沒有為資料指定索引，於是會自動建立一個從0到N-1的整數型索引。
values和index屬性獲取其陣列表示形式和索引物件。
obj.values
array([4,7,-5,3])
obj.index
Int64Index([0,1,2,3])
建立一個帶有可以對Series可以對各個資料點進行標記的索引：
obj2=Series([4,7,-5,3],index=['d','b','a','c'])
obj2
d 4
b 7
a -5
c 3
與Numpy陣列相比，可以通過索引的方式選取Series中的單個或一組值：
obj['a']的值是-5，obj2[['c','a','d']] c 3 a -5 d 6
Numpy陣列運算都會保留索引和值之間的連結：
可以將Series看成是一個定長的有序字典，因為它是索引值到資料值的一個對映。
‘b’ in obj2 True
如果資料存放在一個Python字典中，也可以直接通過這個字典來建立Series:
sdata={'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}
obj3=Series(sdata)
如果只傳入一個字典，則結果Series中的索引就是原字典的鍵（有序排列）
states=['California','Ohio','Oregon','Texas']
obj4=Series(sdata,index=states)
sdata中跟states索引相匹配的那3個值會被找出來並放到相應的位置上，但由於'California'所對應的sdata值找不到，所以其結果就為NaN。pandas的isnull和notnull函式可用於檢測缺失資料。Series也有類似的例項方法。

Series最重要的一個功能是：它在算術運算中會自動對齊不同索引的資料。
Series物件及其索引都有一個name屬性，該屬性跟pandas其他的關鍵功能關係非常密切

Series的索引可以通過賦值的方式就地修改：

DataFrame

DataFrame是一個表格型的資料結構，它含有一組有序的列，每列可以是不同的值型別（數值、字串、布林值等）。DataFrame既有行索引也有列索引，它可以被看做有Series組成的字典（共用同一個索引）。跟其他類似的資料結構相比（如R的data，frame）,DataFrame中面向行和列的操作基本上是平衡的。其實，DataFrame中面向行和列的操作基本上是平衡的。其實，DataFrame中的資料是以一個或多個二維塊存放的。
構建DataFrame的方法有很多，最常用的一種是直接傳入一個由等長列表或NumPy陣列組成的字典：
data={'state':['Ohio','Ohio','Nevada','Nevada'],'year:[2000,2001,2002,2001,2002]','pop':[1.5,1.7,3.6,2.4,2.9]}
frame=DataFrame(data)
DataFrame會自動加上索引（跟Series一樣），且全部列會被有序排列

跟Series一樣，如果傳入的列在資料中找不到，就會產生NA值：
frame2=DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three','four','five'])

通過類似字典標記的方式或屬性的方式，可以將DataFrame的列獲取為一個Series:
frame2['state']
frame2.year

注意：返回的Series擁有原DataFrame相同的索引，且其name屬性也已經相應地設定好了。行也可以通過位置或名稱的方式進行獲取，比如索引欄位ix:
frame2.ix['three']
列可以通過賦值的方式進行修改。例如，我們可以給那個空的'debt'列附上一個標量值或一組值：
frame2['debt']=16.5
frame2['debt']=np.arange(5.)

將列表或陣列賦值給某個列時，其長度必須跟DataFrame的長度相匹配。如果賦值的是一個Series，就會精確匹配DataFrame的索引，所有的空位都將填上缺失值：
val=Series([-1.2,-1.5,-1.7],index=['two','four','five'])
frame2['debt']=val

為不存在的列賦值會創建出一個新列。關鍵字del用於刪除列：
frame2['eastern']=frame2.state=='Ohio'

另一種常見的資料格式是巢狀字典
pop={'Nevada':{2001:2.4,1002:2.9},'Ohio':{2000:1.5,2001:1.7,2002:3.6}}
如果將它傳給DataFrame，它就會被解釋為：外層字典的鍵作為列，內層鍵則作為行索引：
frame3=DataFrame(pop)

由Series組成的字典差不多也是一樣的用法

索引物件
pandas的索引物件負責管理軸標籤和其他元資料（比如軸名稱等）。構建Series或DataFrame時，所用到的任何陣列或其他序列的標籤都會被轉換成一個Index:
obj=Series(range(3),index=['a','b','c'])
index=obj.index
Index物件是不可修改的（immutable），因此使用者不能對其進行修改。不可修改性非常重要，因為這樣才能使Index物件在多個數據結構之間安全共享：
index=pd.index(np.arrange(3))
obj2=Series([1.5,-2.5,0],index=index)
obj2.index is index
True

下表列出了pandas庫中內建的Index類。

pandas中主要的Index物件
類	說明
Index	最泛化的Index物件，將軸標籤表示為一個由Python物件組成的NumPy陣列
Int64Index	針對整數的特殊Index
MultiIndex	"層次化"索引物件，表示單個軸上的多層索引。可以看做由元組組成的陣列
DatatimeIndex	儲存納秒級時間戳
PeriodIndex	針對Period資料（時間間隔）的特殊Index

pandas資料結構介紹

pandas資料結構介紹

Pandas快速教程-資料結構介紹

pandas的資料結構介紹

《利用Python進行資料分析》第五章-pandas的資料結構介紹

redis學習（二） redis資料結構介紹以及常用命令

HashSet資料結構介紹

pandas資料結構之Dataframe

常用的資料結構介紹

官方練習 Pandas 資料結構簡介 Series VS DataFrame

mysql常用資料結構介紹（1）

基礎資料結構介紹

常用資料結構介紹

pandas小記：pandas資料結構和基本操作

資料分析之Pandas——資料結構

pandas資料結構及資料讀寫

Pandas資料結構

Redis資料結構介紹

python演算法與資料結構-演算法和資料結構介紹(31)

資料結構 Roaring Bitmaps 介紹

pandas庫簡介(1)--pandas的三種資料結構

pandas資料結構介紹

相關推薦