pandas資料結構之Dataframe

阿新 • • 發佈：2018-11-10

Dataframe

DataFrame是一個【表格型】的資料結構，可以看做是【由Series組成的字典】（多個series共用同一個索引）。DataFrame由按一定順序排列的多列資料組成。設計初衷是將Series的使用場景從一維拓展到多維。DataFrame既有行索引，也有列索引。

行索引：index
列索引：columns
值：values（numpy的二維陣列）

dataframe的建立

最常用的方法是傳遞一個字典或者二維陣列的方法建立

DataFrame(data=data,index=['張三','李四','王五'],columns=list('語數外 
'))

另外通過匯入csv檔案得到的也是DataFrame

import pandas as pd
df1 = pd.read_csv('../backup/data/president_heights.csv') # 路徑名

DataFrame屬性：values、columns、index、shape

values:表格中的資料(二維陣列)

columns:列索引

index:行索引

shape:形狀

Dataframe的索引

(1) 對列進行索引

- 通過類似字典的方式
- 通過屬性的方式

按照列名進行索引，獲取到一個Series

d = np.random.randint(0,100,size=(3,4))
d
i  
= ['臨風','班長','孫武空']  # 行索引
c = ['chinese','math','english','python']  # 列索引
df = DataFrame(d,i,c)

df['math']
臨風     87
班長     55
孫武空    28
Name: math, dtype: int32

type(df['math'])
pandas.core.series.Series

df.math
臨風     87
班長     55
孫武空    28
Name: math, dtype: int32

(2) 對行進行索引

- 使用.loc[]加index來進行行索引,顯式索引
- 使用.iloc[]加整數來進行行索引,隱式索引

同樣返回一個Series，index為原來的columns。

# df.loc['臨風']  # 顯式索引
df.iloc[0]  # 隱式所引進

chinese    27
math       87
english    70
python     93
Name: 臨風, dtype: int32

總結
對列進行索引 df['列名'] df.列名得到的是Series
對行進行索引 df.loc['行名'] df.iloc[行序號] 得到的是Series

(3) 對元素索引的方法

- 使用列索引
- 使用行索引
- 使用values屬性（二維numpy陣列）

# 對具體元素進行定位
df.python.loc['班長']  # 先按列找 找到的是Series 在對Series進行索引
df.loc['班長'].iloc[-1]

# df的loc或者iloc提供了更加優雅的方式
df.loc['班長','python']
df.iloc[1,-1]

df.values  # 如果DataFrame的索引記不清 可以直接通過values然後去定位值
array([[27, 87, 70, 93],
       [21, 55, 31, 36],
       [38, 28, 24, 37]])
df.values[1,-1]

【注意】直接使用中括號時：

索引表示的是列索引
切片表示的是行切片

df['臨風':'孫武空']
df['臨風':'班長'] # 直接使用中括號不能對列進行切片而是對行進行切片（因為對行進行切片的需求比較常見）

# 如果非要對列 進行切片 可以使用loc或者iloc
df.loc[:,'math':'python']

Dataframe的運算

(0) df和數值

df +5

相當於給表中的所有的資料都+5

# 對某一行樣本進行修改
df.loc['臨風']+=100

（1） DataFrame之間的運算

同Series一樣：

在運算中自動對齊不同索引的資料
如果索引不對應，則補NaN

# 建立DataFrame df1 不同人員的各科目成績，月考一
d = np.random.randint(0,100,size=(4,3))
d
i = ['jack','rose','tom','jerry']  # 行索引
c = ['math','english','python']  # 列索引
df1 = DataFrame(d,i,c)
df1

# 建立DataFrame df2 不同人員的各科目成績，月考二 有新學生轉入
d = np.random.randint(0,100,size=(5,3))
d
i = ['jack','rose','tom','jerry','bob']  # 行索引
c = ['math','english','python']  # 列索引
df2 = DataFrame(d,i,c)
df2

display(df1,df2) 可以讓資料同時顯示

df1+df2

那麼有沒有辦法不顯示NaN呢,肯定是有的

其實物件使用 + 相加其實是執行了類中的add方法

所以

df1.add(df2,fill_value=0) # 設定上這個引數就可以給沒有的資料設定一個預設值=

結果展示:

下面是Python 操作符與pandas操作函式的對應表：

（2） Series與DataFrame之間的運算

【重要】

使用Python操作符：以行為單位操作，對所有行都有效。（類似於numpy中二維陣列與一維陣列的運算，但可能出現NaN）

使用pandas操作函式：

  axis=0：以列為單位操作（引數必須是列），對所有列都有效。
  axis=1：以行為單位操作（引數必須是行），對所有行都有效。

例子:

df = DataFrame(data=np.random.randint(0,10,size=(5,5)),index=list('abcde'),columns=list('01234'))
df

s1 = Series(data=np.random.randint(0,10,size=5),index=list('01234'))
s1

0    1
1    3
2    1
3    1
4    9
dtype: int32

df+s1 # 表格和序列相加預設每一行都要和序列相加對應項相加

s2 = Series(data=np.random.randint(0,10,size=5),index=list('abcde'))
s2

df+s2 # 輸出的結果全部都是NaN

# axis='columns' 預設是columns 每一行和Series相加 讓列名和Series中的索引去對應
df.add(s2,axis='index')

pandas資料結構之Dataframe

Dataframe DataFrame是一個【表格型】的資料結構，可以看做是【由Series組成的字典】（多個series共用同一個索引）。DataFrame由按一定順序排列的多列資料組成。設計初衷是將Series的使用場景從一維拓展到多維。DataFrame既有行索引，也有列索引。行索引：ind

資料結構之--series,DataFrame.use python and pandas for data mining

1.好的資料結構是資料分析的基礎，一個高效的資料分析方法離不開資料的構造，series and DataFrame是兩種高效簡單的資料型別。 2.Series是一個一維的類似的陣列物件，包含一個數組的資料（任何NumPy的資料型別）和一個與陣列關聯的資料標籤，

官方練習 Pandas 資料結構簡介 Series VS DataFrame

傳遞的索引是軸標籤列表。因此，根據資料的不同，這可分為幾種情況： In [42]: import pandas as pd import numpy as np import matplotlib.pyplot as plt 來自ndarray 如果data是nda

資料分析之Pandas——資料結構

資料結構介紹 Pandas的資料物件中都包含最基本的屬性，如資料型別，索引，標籤等。要使用Pandas的資料結構首先需要引入pandas和numpy： In [1]: import numpy as np In [2]: import pandas

pandas庫介紹之DataFrame基本操作

讀取excel 操作 pyplot 分組寫入 pos ner 結構此外怎樣刪除list中空字符？最簡單的方法：new_list = [ x for x in li if x != ‘‘ ] 今天是5.1號。這一部分主要學習pandas中基於前面兩種數據結構的基

資料結構之深度尋路---地圖尋路(棧實現)

注：深度尋路用到的棧標頭檔案以及.cpp檔案在我的資源中可下載或者Q：1286550014(免費) 深度尋路原理：在地圖中從一個點開始，從規定方向開始走，無障礙就繼續走，資料壓棧，如果有障礙就退一步，資料出棧，直至找到終點或無終點時，尋路結束。一、標頭檔案匯入 #i

資料結構之棧實現檢查左右括號是否匹配

def isValid(self,s): stack = [] paren_map = {')': '(', ']': '[', '}': '{'} for c in s: if c not in paren_map: stack.appe

資料結構之快慢指標查詢連結串列中間結點

單鏈表是一種十分常見和應用廣泛的資料結構，也是面試題經常會問到的一個。近期複習單鏈表，就將這個單鏈表常見的考點順便複習了一遍。面試題：如何最快的獲取單鏈表的中間節點的位置？ &nb

資料結構之伸展樹(二)

之前寫了一篇Splay的部落格【資料結構之伸展樹(一）】，只是說了一下了它的原理及核心的伸展操作，後來發現具體在哪裡應用splay我還是分不大清。事實上，Splay常常用於實現可分裂與合併的序列，舉個板栗，比如給你一個數組，將陣列從某一個地方分成倆陣列，或者給你倆陣列，將他們直接連線成一個

資料結構之求解RMQ問題

RMQ，即range minimum queuy,範圍最小值查詢，一般樸素演算法查詢單個區間是O(n),查詢m個就是O(m*n) ，這裡要說的Sparse-Table演算法，需要O(nlog n)的預處理，O(1)的單次查詢，在查詢次數很多的時候就能體現更好的優越性。而且，最重要的是這個演算法寫

資料結構之靜態單鏈表

靜態連結串列L儲存遊標 cur 5 2 3 4 0 6 7 .... 1 資料 data A

資料結構之單鏈表插入刪除操作

#include<iostream> using namespace std; typedef struct LNode { int data; struct LNode *next; }LNode; void createListR(LNode *C, int a[], int n

Java常用資料結構之List

JDK 11正式釋出了，Oracle終於出了一個長期維護版本，應該將是繼JDK 8之後的一個常規使用版本。前言作為Java系開發者對Java集合類的使用應該是較為頻繁的，也是面試中經常會被問的問題。一直想整理一下Java集合和Android中的優化集合類，借這次機會

資料結構之伸展樹個人筆記伸展樹(一)之圖文解析和 C語言的實現

閱讀了skywang的伸展樹的講解，覺得講的很不錯，再次也推薦大家無論是新手還是老手都可以去閱讀下。 ----------------------------------------------------------------------------------------- 伸展樹(一)之圖文

leveldb原始碼-----資料結構之Arena

leveldb中的記憶體管理主要是通過Arena。Arena管理記憶體的思想是用一個vector來管理申請的block // Array of new[] allocated memory blocks std::vector<char*> blocks_; 每個block的大小

資料結構之最大子列和

#include <stdlib.h> #include <stdio.h> int MaxSubseqSum(int a[],int N) { int i,ThisSum = 0,MaxSum = 0; &nb

資料結構之B+樹

title: 資料結構之B+樹 date: 2018-11-04 20:39:00 tags: 資料結構與演算法之美一、淺談B-樹索引 1.B-樹的特性一棵m階B-樹，或者是空樹，或者是滿足以下性質的m叉樹根結點至少有兩個分支；除根以外的非葉結點，每個結點包含分支數範圍[[

資料結構之圖的關鍵路徑

title: 資料結構之圖的關鍵路徑 tags: 資料結構與演算法之美一、AOE和AOV網 1.AOE網 AOE-網：指用邊表示活動的網，是一個帶權的有向無環圖，其中，頂點表示事件弧表示活動，權表示活動持續的時間，通常一個AOE-網可用來估算工程的完成時間。 2.AOV網指用頂點表示活動

資料結構之List實現類

目錄 1.Arraylist 2.LinkedList 3.Vector 4.Stack 1.Arraylist Arraylist作為常用的資料容器，還是有必要知道一些內部的細節。從執行緒安全方面來看，Arraylist是非執行緒安全，假設10個執行緒同時執行，往Arr

區塊鏈vs.DAG, 區別到底是什麼? 一文讀懂燒腦的資料結構之爭

作者 | 劉春明 DAG（有向無環圖）是一種非線性資料結構，可以替代區塊鏈，用於分散式賬本的儲存。這種結構在併發的場景下有更好的效能表現，但在實際應用中會面臨更多的技術挑戰。其中，最大的挑戰在於，基於DAG結構實現智慧合約，要比基於區塊鏈結構困難得多。本文將討論DAG和

pandas資料結構之Dataframe

Dataframe

dataframe的建立

Dataframe的索引

Dataframe的運算

相關推薦