python pandas庫的學習筆記一pandas的資料結構

阿新 • • 發佈：2019-01-28

要使用pandas，首先要熟悉他的兩個主要的資料結構：Series和DataFrame。

一、Series

Series 是一種類似於一維陣列的物件，由一組資料（各種numpy資料型別）以及一組與之相關的資料標籤（即索引）組成。
僅由一組資料即可產生最簡單的Series：

>>> from pandas import Series,DataFrame
>>> import pandas as pd
>>> obj=pd.Series([4,7,-5,3])
>>> obj
0    4
1    7
2   -5
3    3
dtype: int64

左邊是索引，右邊是值，這樣看起來Series好像更像dict或map這一類具有鍵值對的結構。

>>> obj.values #值
array([ 4,  7, -5,  3], dtype=int64)
>>> obj.index #索引物件
RangeIndex(start=0, stop=4, step=1)

分別獲得值物件與索引物件。

手動指定索引

>>> obj1=Series([4,7,-5,3],index=['a','b','d','c'])
>>> obj1
a    4
b    7
d   -5
c    3
dtype: int64

通過索引取值：

>>> obj1['a']
4
>>> obj1[['a','d','b']] #獲取多個值
a    4
d   -5
b    7
dtype: int64

陣列運算：

>>> obj1[obj1>0]
a    4
b    7
c    3
dtype: int64
>>> obj1*2
a     8
b    14
d   -10
c     6
dtype: int64

既然Series的結構很像dict，自然也可以通過一個dict去建立Series

>>> sdata={'ohio':3500,'Texas':710,'Utah':500}
>>> obj2=Series(sdata)
>>> obj2
Texas     710
Utah      500
ohio     3500
dtype: int64

name屬性，Series物件本身及其索引都有一個name屬性

>>> obj2.index.name='state'
>>> obj2.name='population'
>>> obj2
state       #索引名
Texas     710
Utah      500
ohio     3500
Name: population, dtype: int64 #Series名

二.DataFrame

DataFrame是一個表格型的資料結構，含有一組有序的列，每列可以是不同的值型別（數值，字串，布林值等）。DataFrame既有行索引也有列索引，可以被看做是由Series組成的字典。DataFrame中的資料是以一個或多個二維塊存放的。

構建DataFrame

>>> data={'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],'year':[2000,2001,2002,2001,2002],'pop':[1.5,1.7,3.6,2.4,2.9]}
>>> frame=DataFrame(data)
>>> frame
   pop   state  year
0  1.5    Ohio  2000
1  1.7    Ohio  2001
2  3.6    Ohio  2002
3  2.4  Nevada  2001
4  2.9  Nevada  2002

結果會自動加上索引，且全部列被有序排列，注意是列被有序排列，即根據列名有序排列。

指定列的順序

>>> DataFrame(data,columns=['year','state','pop'])
   year   state  pop
0  2000    Ohio  1.5
1  2001    Ohio  1.7
2  2002    Ohio  3.6
3  2001  Nevada  2.4
4  2002  Nevada  2.9

如果傳入的列找不到，則會產生NAN

>>> frame2=DataFrame(data,columns=['year','state','pop','debt'] ,index=['one','two','three','four','five'])
>>> frame2
       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN

取值，通過類似陣列或屬性的方式，可以獲取某一列的資料（為一個Series）

>>> frame2['state'] #類似陣列的方式
0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
Name: state, dtype: object
>>> frame2.year #類似屬性的方式
0    2000
1    2001
2    2002
3    2001
4    2002
Name: year, dtype: int64

注意，返回的Series擁有原DataFrame相同的索引，且其name屬性也已經被相應的設定好了。
獲取行，行也可以通過位置或名稱的方式來進行獲取，比如用索引欄位ix

>>> frame2.ix[2]
year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

列可以通過賦值的方式進行修改。如下，我們可以給空的”debt“列賦值一個標量或一組值。

>>> import numpy as np
>>> frame2['dept']=np.arange(5) #為不存在的列賦值會建立一個新列
>>> frame2['debt']=12
>>> frame2
   year   state  pop  debt  dept
0  2000    Ohio  1.5    12     0
1  2001    Ohio  1.7    12     1
2  2002    Ohio  3.6    12     2
3  2001  Nevada  2.4    12     3
4  2002  Nevada  2.9    12     4

刪除，關鍵詞del用於刪除列

>>> del frame2['pop']
>>> frame2
   year   state  debt  dept
0  2000    Ohio    12     0
1  2001    Ohio    12     1
2  2002    Ohio    12     2
3  2001  Nevada    12     3
4  2002  Nevada    12     4

另一種常見的資料形式是巢狀字典（也就是字典的字典），將它傳給DataFrame，就會被解釋為：外層字典的鍵作為列，內層鍵作為行索引。

>>> pop={'Nevada':{2001:2.4,2002:2.9},'Ohio':{2000:1.5,2001:1.7, 2002:3.6}}
>>> frame3=DataFrame(pop) #使用巢狀字典構造DataFrame
>>> frame3
      Nevada  Ohio
2000     NaN   1.5
2001     2.4   1.7
2002     2.9   3.6

對結果進行轉置：

>>> frame3.T
        2000  2001  2002
Nevada   NaN   2.4   2.9
Ohio     1.5   1.7   3.6

設定index和columns的name屬性：

>>> frame3.index.name='year'
>>> frame3.columns.name='state'
>>> frame3
state  Nevada  Ohio
year
2000      NaN   1.5
2001      2.4   1.7
2002      2.9   3.6

可以用於構造DataFrame的資料：

三、索引物件

pandas的索引物件負責管理標籤和其他元資料（比如軸名稱等）。構建Series或DataFrame時，所用到的任何陣列或其他序列的標籤都會被轉換成一個Index：

>>> obj=Series(range(3),index=['a','b','c'])
>>> obj.index
Index([u'a', u'b', u'c'], dtype='object')

Idex物件是不可修改的，因此使用者不能對其修改。不可修改性非常重要，因為這樣才能使得index物件在多個數據結構之間安全共享：

>>> index=pd.Index(np.arange(3))
>>> obj2=Series([1.5,-2.5,0],index=index)
>>> obj2.index is index
True

index的方法和屬性：

參考：

《利用python進行資料分析》

Python之numpy學習筆記(一) 標準資料型別

文章目錄一、numpy標準資料型別二、建立陣列的方式一、numpy標準資料型別當構建一個數組時，可以用一個字串引數來指定資料型別 np.zeros(10, dtype

python pandas庫的學習筆記一pandas的資料結構

要使用pandas，首先要熟悉他的兩個主要的資料結構：Series和DataFrame。一、Series Series 是一種類似於一維陣列的物件，由一組資料（各種numpy資料型別）以及一組與之相關的資料標籤（即索引）組成。僅由一組資料即可產生最簡單的Series

python中pandas庫學習筆記

現在回想學pandas很意外，記得五月份的時候剛剛跑到現在的公司實習，那個時候公司沒發電腦，當時天天去那就看書（自己的電腦被朋友拿走了），就這樣看了半個月的pandas，後來也就慢慢用上了，下面是pa

python requests庫學習筆記（下）

mail 接收緩存 nbsp 0.10 基本 eat agen 維基百科 1.請求異常處理請求異常類型：請求超時處理（timeout）：實現代碼： import requestsfrom requests import exceptions #引

數據庫學習筆記一

前言空白 tro 移動問題最新版 oracl 程序員防火墻數據庫學習筆記一前言作為程序員工作已經很長時間了，但是數據庫方面的能力真的是拿不出手，所以準備開始系統的學習一下數據庫知識。我選擇的數據庫是微軟對的SqlServer(MSSQL) 最開始有一次我

《Python指南》學習筆記一

空行 sin 合數之間 multiple arr keyboard 都是 oom 更新時間：2018-06-14 《Python指南》原文在這裏。本篇筆記主要是劃重點。 Python 3.6.3 1、簡單入門 1.1 編碼默認情況下，Python 源文件是 UTF-

JavaScript高階程式設計第三版學習筆記(一)之資料型別區分詳談

　　null、NaN、undefined三者的區別是什麼？　　在初次接觸到JavaScript的時候，傻傻的分不清null、NaN、undefined三者到底區別何在，在實際的專案開發中也因為這個問題而困惑久矣。針對這個問題，我特意查找了多方資料，在筆記本上做了詳細的分析記錄，但是由於紙質資料不便於攜帶、

Python 操作Excel 學習筆記(一)

#!C:/Python27 #coding=utf-8 import xlrd import xlsxwriter class readExcelFile(object): def __init__(self): #path = "D:/2017

Python程式設計入門學習筆記(一)

# 第一章 python介紹 ### 最簡單的開始 ```python print('hello,"world') ``` hello,"world ```python print("hello,'world") ``` hello,'

Python+OGR庫學習（一）：讀取點向量檔案屬性值和座標，並儲存為TXT（一行一個要素值）

程式碼思路： 1、匯入相關庫包，切換到當前資料夾 2、註冊驅動，開啟點向量檔案，獲取圖層 3、開啟待寫入TXT檔案 4、遍歷要素：（1）獲取當前要素‘ID’和‘cover’欄位屬性（2）獲取當前點要素對應幾何物件和其座標值X,Y （3）將ID、cover、X、Y寫入TXT檔案（

liblas庫學習筆記一

Reader類（1）函式ReadNextPoint()：逐個訪問las檔案中的點資料，讀完一條點記錄後自動移動到下一條記錄，直到結束。 std::ifstream ifs; ifs.open(pSrcFileName, std::ios::in | std::ios::b

python-urllib庫學習筆記

import urllib.request, urllib.parse ''' urllib常用的請求語句 ''' url = '' # 傳送請求 res = urllib.request.urlopen(url=url) # 讀取請求到的內容 res.read().de

boost庫學習筆記一 boost::share_mutex 互斥鎖讀寫鎖

#include <boost/thread/mutex> typedef boost::shared_mutex rwMutex; typedef boost::shared_lock<rwMutex> ReadLocker; typed

[學習筆記]可持久化資料結構可持久化並查集

可持久化：支援查詢歷史版本和在歷史版本上修改可持久化陣列主席樹做即可。【模板】可持久化陣列（可持久化線段樹/平衡樹）可持久化並查集可持久化並查集主席樹做即可。要按秩合併。（路徑壓縮每次建logn條鏈，會卡爆空間MLE）主席樹節點，維護father

Redis學習筆記之基本資料結構

Redis基礎資料結構 Redis有5種基本資料結構：String(字串)、list(列表)、set(集合)、hash(雜湊)、zset(有序集合) 字串string 字串型別是Redis的value最簡單的資料結構，類似與Java語言中的ArrayList(數

go學習筆記(2)：資料結構

Go語言不是一門面向物件的語言，沒有物件和繼承，也沒有面向物件的多型、重寫相關特性。 Go所擁有的是資料結構，它可以關聯方法。Go也支援簡單但高效的組合(Composition)，請搜尋面向物件和組合。雖然Go不支援面向物件，但Go通過定義資料結構的方式，也能實現與Class相似的功能。一個簡單的例子，

圖形學學習筆記2 網格資料結構

1 網格資料應用渲染集合查詢（某個面的頂點有哪些，兩個點是否相連等）幾何操作（新增、刪除某個點/線/面；網格化簡；頂點分裂，邊緣摺疊） 2 網格資料的儲存一般的網格儲存（很難有效實現）什麼是好的資料儲存？（空間複雜度，時間（構建時間，查詢時間，修改時間），

Java基礎學習（一）資料結構

基礎問題 1. 幾類資料結構的定義和區別是什麼？ 2. 容器的資料結構底層是怎麼實現的？怎麼進行擴容？ 3. 容器的執行緒安全怎麼實現？一、List容器資料有序，允許重複資料，執行緒不安全。 1. linkedList 底層用雙向連結串列實現，操作速度快，可以在頭、尾、[n]操作資料。 2. Arr

Lucene學習筆記之-核心資料結構PriorityQueue的實現原理

Luene的核心應用場景是全文檢索。簡單來說，就是通過使用者輸入的關鍵詞來匹配相關文件，然後根據匹配程度返回TopN的查詢結果給使用者。這裡需要解決的一個核心問題就是如何快速返回TopN的結果，這本質上是一個排序的問題。說起排序，我們有很多選擇，冒泡，快排，歸併...。這些排序演算法在資料量小的時候，不是

python3學習筆記13（資料結構）

參考http://www.runoob.com/python3/python3-data-structure.html 列表列表是可修改的。列表方法讓列表可以方便的作為一個堆疊來使用，堆疊作為特定的資料結構，最先進入的元素最後一個被釋放（後進先出）。其中用append()方法可以把一個元素新增的

python pandas庫的學習筆記一pandas的資料結構

一、Series

二.DataFrame

三、索引物件

相關推薦