Pandas入門學習（2）

阿新 • • 發佈：2018-11-09

文章目錄

Pandas 基本功能

1、Series 基本屬性

axes 示例
empty 示例
ndim 示例
size 示例
values 示例
head() 和 tail() 方法示例

2、DataFrame 基本屬性

T(轉置)示例
axes 示例
dtype 示例
empty 示例
ndim 示例
shape 示例
size 示例
values 示例
head() 和 tail() 方法示例

3、DataFrame 描述統計

describe()示例

4、Pandas函式應用

表格函式應用
行或列函式應用
元素函式應用

5、Pandas 重建索引

示例
重建索引與其他物件對齊
重新命名

Pandas 基本功能

主要介紹Series 和 DataFrame物件，在實時資料處理中非常重要。

1、Series 基本屬性

屬性或方法	描述
axes	返回行軸標籤列表
dtype	返回物件的資料型別（dtype）
empty	如果系列為空，返回 True
ndim	返回底層資料的維數。預設：1
size	返回基礎資料中的元素數。
values	將系列作為 ndarray 返回。
head()	返回前 n 行。
tail()	返回後 n 行。

axes 示例

返回Series的標籤列表

import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(5))
print(s.axes)

[RangeIndex(start=0, stop=5, step=1)]

empty 示例

返回布林值，表示物件是否為空
返回 True 表示物件為空

import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(5))
print(s.empty)

False

ndim 示例

返回物件的維數

import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(5))
n = pd.DataFrame(np.random.randn(6).reshape((2,3)))
print(s.ndim)
print(n.ndim)

1
2

size 示例

返回系列的大小（長度）

import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(5))
print(s.size)

values 示例

以列表形式返回系列中的實際資料值

import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(5))
print(s.values)

[ 0.90074849 -0.01737094 -0.61616918 -0.05302233 -0.02019216]

head() 和 tail() 方法示例

head() 返回前 n 行。
預設：顯示前5行，可以自定義這個數字。

tail() 返回前 n 行。
預設：顯示後5行，可以自定義這個數字。

2、DataFrame 基本屬性

屬性或方法	描述
T	轉置行和列
axes	返回一個列，行軸標籤和列軸標籤作為唯一的成員。
dtypes	返回物件中的資料型別
empty	如果為空返回 True
ndim	返回軸/陣列維度大小
shape	返回 DataFrame 的維度元組
size	返回元素數目
values	返回 Numpy 表示
head()	返回開頭 n 行
tail()	返回最後 n 行

T(轉置)示例

將行和列進行交換位置

import pandas as pd
import numpy as np
data = {'Name':pd.Series(['Hubo','Xiaoli','Vim','KaKa']),
		'Age':pd.Series([21,22,23,10]),
		'Grade':pd.Series([4.5,4.1,3.3,2.0])}
df = pd.DataFrame(data)
print(df)
print(df.T)

     Name  Age  Grade
0    Hubo   21    4.5
1  Xiaoli   22    4.1
2     Vim   23    3.3
3    KaKa   10    2.0
          0       1    2     3
Name   Hubo  Xiaoli  Vim  KaKa
Age      21      22   23    10
Grade   4.5     4.1  3.3     2

axes 示例

返回行軸標籤和列標籤列表

import pandas as pd
import numpy as np
data = {'Name':pd.Series(['Hubo','Xiaoli','Vim','KaKa']),
		'Age':pd.Series([21,22,23,10]),
		'Grade':pd.Series([4.5,4.1,3.3,2.0])}
df = pd.DataFrame(data)
print(df.axes)

[RangeIndex(start=0, stop=4, step=1), Index(['Name', 'Age', 'Grade'], dtype='object')]

dtype 示例

返回每列的資料型別

import pandas as pd
import numpy as np
data = {'Name':pd.Series(['Hubo','Xiaoli','Vim','KaKa']),
		'Age':pd.Series([21,22,23,10]),
		'Grade':pd.Series([4.5,4.1,3.3,2.0])}
df = pd.DataFrame(data)
print(df.dtypes)

Name      object
Age        int64
Grade    float64
dtype: object

empty 示例

返回布林值，物件為空返回 True

import pandas as pd
import numpy as np
data = {'Name':pd.Series(['Hubo','Xiaoli','Vim','KaKa']),
		'Age':pd.Series([21,22,23,10]),
		'Grade':pd.Series([4.5,4.1,3.3,2.0])}
df = pd.DataFrame(data)
print(df.empty)

False

ndim 示例

返回物件的維數，DataFrame是一個 2D 物件

import pandas as pd
import numpy as np
data = {'Name':pd.Series(['Hubo','Xiaoli','Vim','KaKa']),
		'Age':pd.Series([21,22,23,10]),
		'Grade':pd.Series([4.5,4.1,3.3,2.0])}
df = pd.DataFrame(data)
print(df.ndim)

shape 示例

返回表示 DataFrame 的維度元組
元組(a,b)，其中 a 是行數，b 表示列數

import pandas as pd
import numpy as np
data = {'Name':pd.Series(['Hubo','Xiaoli','Vim','KaKa']),
		'Age':pd.Series([21,22,23,10]),
		'Grade':pd.Series([4.5,4.1,3.3,2.0])}
df = pd.DataFrame(data)
print(df.shape)

(4,3)

size 示例

返回 DataFrame 中元素數

import pandas as pd
import numpy as np
data = {'Name':pd.Series(['Hubo','Xiaoli','Vim','KaKa']),
		'Age':pd.Series([21,22,23,10]),
		'Grade':pd.Series([4.5,4.1,3.3,2.0])}
df = pd.DataFrame(data)
print(df.size)

values 示例

將 DataFrame 中的實際資料作為 ndarray 返回。

import pandas as pd
import numpy as np
data = {'Name':pd.Series(['Hubo','Xiaoli','Vim','KaKa']),
		'Age':pd.Series([21,22,23,10]),
		'Grade':pd.Series([4.5,4.1,3.3,2.0])}
df = pd.DataFrame(data)
print(df.values)

[['Hubo' 21 4.5]
 ['Xiaoli' 22 4.1]
 ['Vim' 23 3.3]
 ['KaKa' 10 2.0]]

head() 和 tail() 方法示例

head() 返回前 n 行。
預設：顯示前5行，可以自定義這個數字。

tail() 返回前 n 行。
預設：顯示後5行，可以自定義這個數字。

3、DataFrame 描述統計

Pandas 中描述統計資訊的函式

函式	描述
`count()`	非空觀測數量
`sum()`	所有值之和
`mean()`	所有值的平均值
`median()`	所有值的中位數
`mode()`	值的模值
`std()`	值的標準偏差
`min()`	所有值中的最小值
`max()`	所有值中的最大值
`abs()`	絕對值
`prod()`	陣列元素的乘積
`cumsum()`	累計總和
`cumprod()`	累計乘積
`describe()`	統計上面所有資訊

注意：sum(),cumsum()函式能數字和字元一起工作。
注意：abs()這樣的函式就只能運算元字。

describe()示例

函式給出平均值、標準差等
預設：函式排除字元列，只列出數字列摘要
include()：用於傳遞什麼列，預設：數字值

object - 彙總字串列
number - 彙總數字列
all - 將所有列彙總在一起(不要傳遞列表)

import pandas as pd
import numpy as np
data = {'Name':pd.Series(['Hubo','Xiaoli','Vim','KaKa']),
		'Age':pd.Series([21,22,23,10]),
		'Grade':pd.Series([4.5,4.1,3.3,2.0])}
df = pd.DataFrame(data)
print(df.describe(include=['object']))
print(df.describe(include='all'))

        Name
count      4
unique     4
top     Hubo
freq       1
        Name        Age     Grade
count      4   4.000000  4.000000
unique     4        NaN       NaN
top     Hubo        NaN       NaN
freq       1        NaN       NaN
mean     NaN  19.000000  3.475000
std      NaN   6.055301  1.102648
min      NaN  10.000000  2.000000
25%      NaN  18.250000  2.975000
50%      NaN  21.500000  3.700000
75%      NaN  22.250000  4.200000
max      NaN  23.000000  4.500000

4、Pandas函式應用

將函式應用於 Pandas 物件，常用三種方法，行或列或元素上進行操作。

pipe()：表格函式應用
apply()：行或列函式應用
applymap()：元素函式應用

表格函式應用

將函式和適當數量的引數作為管道引數來執行自定義操作。
對整個DataFrame執行操作。

import pandas as pd
import numpy as np
def adder(ele1,ele2):
   return ele1+ele2

df = pd.DataFrame(np.random.rand(5,3),columns=['A','B','C'])
print(df.pipe(adder,100))

            A           B           C
0  100.881561  100.254161  100.390598
1  100.834995  100.787453  100.237498
2  100.191932  100.169226  100.185465
3  100.600637  100.055993  100.343523
4  100.877651  100.473381  100.438437

行或列函式應用

使用apply()方法沿DataFrame或Panel的軸應用任意函式
預設：操作按列執行，將每列列為陣列

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(5,3),columns=['A','B','C'])
print(df)
print(df.apply(np.mean))
print(df.apply(np.mean, axis=1))
df.apply(lambda x: x.max() - x.min())
print(df)

          A         B         C
0  0.437312  0.799019  0.842078
1  0.697479  0.117254  0.628487
2  0.816568  0.972410  0.760768
3  0.450923  0.031967  0.658762
4  0.641998  0.633653  0.748719
A    0.608856
B    0.510861
C    0.727763
dtype: float64
0    0.692803
1    0.481074
2    0.849916
3    0.380551
4    0.674790
dtype: float64
          A         B         C
0  0.437312  0.799019  0.842078
1  0.697479  0.117254  0.628487
2  0.816568  0.972410  0.760768
3  0.450923  0.031967  0.658762
4  0.641998  0.633653  0.748719

元素函式應用

在DataFrame上的方法applymap()和類似地在Series上的map()接受任何Python函式，並且返回單個值。

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(5,3),columns=['A','B','C'])
print(df)
print(df['A'].map(lambda x: x * 100))
print(df.applymap(lambda x: x * 100))

          A         B         C
0  0.191182  0.468353  0.569726
1  0.643632  0.903344  0.689815
2  0.226939  0.455236  0.054880
3  0.024711  0.063028  0.601296
4  0.502506  0.259828  0.903867
0    19.118187
1    64.363249
2    22.693934
3     2.471056
4    50.250610
Name: A, dtype: float64
           A          B          C
0  19.118187  46.835287  56.972615
1  64.363249  90.334413  68.981530
2  22.693934  45.523638   5.487973
3   2.471056   6.302777  60.129613
4  50.250610  25.982770  90.386709

**注意：**該操作和表格函式應用的例項作用類似。

5、Pandas 重建索引

重建索引會更改DataFrame的行標籤和列標籤
重新索引意味著符合資料以匹配特定軸上的一組給定的標籤。

實現的操作

重新排序現有資料以匹配一組新的標籤
在沒有標籤資料的標籤位置插入缺失值NA標記

示例

import pandas as pd
import numpy as np

N = 10
df = pd.DataFrame({
	'A': pd.date_range('2016-11-11',periods=N),
	'C': np.linspace(0,num=N,stop=N-1),
	'X': np.random.rand(N),
	'W': np.random.choice(['Low','Mid','High'],N).tolist(),
	'D': np.random.normal(100,10,size=(N)).tolist(),
	})
df1 = df.reindex(index=[0,3,8], columns=['A','W','B'])
print(df)
print(df1)

           A    C         X     W           D
0 2016-11-11  0.0  0.362752   Low   88.484337
1 2016-11-12  1.0  0.370616   Low  105.494904
2 2016-11-13  2.0  0.230432  High  129.169419
3 2016-11-14  3.0  0.054996  High  104.978711
4 2016-11-15  4.0  0.374281  High   98.874150
5 2016-11-16  5.0  0.855535   Mid  101.220366
6 2016-11-17  6.0  0.578576   Mid   91.053585
7 2016-11-18  7.0  0.243621   Low   97.590969
8 2016-11-19  8.0  0.014339   Mid  124.042128
9 2016-11-20  9.0  0.238797   Mid  107.222124
           A     W   B
0 2016-11-11   Low NaN
3 2016-11-14  High NaN
8 2016-11-19   Mid NaN

重建索引與其他物件對齊

採取一個物件和重新索引，其軸被標記為與另一個物件相同。

import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.rand(5,3), columns=['A','B','C'])
df2 = pd.DataFrame(np.random.rand(2,3), columns=['A','B','C'])
df1 = df1.reindex_like(df2)
print(df1)

          A         B         C
0  0.625741  0.372294  0.146664
1  0.831084  0.350805  0.277556

重新命名

rename()方法允許基於一些對映(字典或者系列)或任意函式來重新標記一個軸。

import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.rand(5,3), columns=['A','B','C'])
print(df1)
print(df1.rename(columns={'A':'a','B':'b'}))

          A         B         C
0  0.296367  0.849991  0.551506
1  0.750420  0.627995  0.501638
2  0.651334  0.538189  0.179588
3  0.320770  0.528002  0.263931
4  0.695984  0.025996  0.585251
          a         b         C
0  0.296367  0.849991  0.551506
1  0.750420  0.627995  0.501638
2  0.651334  0.538189  0.179588
3  0.320770  0.528002  0.263931
4  0.695984  0.025996  0.585251

Pandas入門學習（2）

文章目錄 Pandas 基本功能 1、Series 基本屬性 axes 示例 empty 示例 ndim 示例 size 示例 values 示例 head() 和 tail()

java入門學習（2）—基本數據類型

堆內存類指針 erl 相互 lean 就是沒有初始化 true ++ 1、變量：定義變量：【數據類型】變量名 = 賦值（這樣定義的變量一般屬於局部變量，放置在棧內存中）； 2、標識符：可以有字母（可以使任意文字），數字，下劃線，$等組成；但是不能以數字開頭，不能是保留

Pandas入門學習（1）

文章目錄 Pandas入門學習 1、Series Series的構造建立Series ndarray建立Series dict建立Series 標量建立Series

Pandas入門學習（3）

文章目錄 Pandas 常用功能 1、Pandas 迭代迭代 DataFrame iteritems()示例 iterrows()示例 itertuples()示例 2、Panda

pandas系列學習（一）：pandas入門

作者：chen_h 微訊號 & QQ：862251340 微信公眾號：coderpai 介紹 pandas 是一套用於 Python 的快速，高效的資料分析工具。近年來它的受歡迎程度飆升，與資料科學和機器學習等領域的興起同步。正如 Numpy 提供了基礎

Linux真小白入門教程第五集——Bash Shell命令學習（2）

shell還提供了很多在Linux檔案系統上操作檔案的命令 touch命令可以輕鬆建立空檔案。 touch test_one 建立新檔案，並將你的使用者名稱作為檔案的屬主，此時檔案的大小為0，因為touch命令只建立了一個空檔案。 cp命令可以完成檔案的複製操作

python資料分析pandas包入門學習（三）彙總和統計描述

本文參考《利用Python進行資料分析》的第五章 pandas入門 pandas擁有一組常用的數學和統計方法。它們大部分屬於約簡和彙總統計，用於從Series中提取單個值（如sum和mean），或從DataFrame的行或列中提取一個Series。跟對應的Numpy陣列

python資料分析pandas包入門學習（四）處理缺失資料

本文參考《利用Python進行資料分析》的第五章 pandas入門 4 處理缺失資料缺失資料（missing data）在大部分資料分析應用中都很常見。Pandas的設計目標之一就是讓缺失資料的處理任務儘量輕鬆。例如，pandas物件上的所有描述統計都排除了缺失資料

mybatis學習（2）——入門例項

在上一篇部落格中，我們已經把所有的準備工作做好了，包括資料庫和mybatis下載等，接下我們進入一個實際的案例，來理解mybatis是如何工作的。 1、新建專案這裡使用的軟體是IDEA，這個無關緊要，我們首先建立一個Java專案，工程最後的結構如下所示，我們將先前的my

TensorFlow 入門第一課--基本函式學習（2）：tf.nn.conv2d 、tf.contrib.layers.flatten、tf.nn.max_pool 詳解

Tensorflow 提供了一些內建的API實現了CNN網路結構中的卷積，池化，全連線網路等運算操作。tf.nn.conv2d(input,filter, strides, padding, data_

python資料分析pandas包入門學習（二）基本功能

本文參考《利用Python進行資料分析》的第五章 pandas入門 2基本功能介紹操作Series和DataFrame中的資料的基本手段。重新索引reindex 當呼叫Series的reindex將會根據新索引進行重排；當某個索引值當前不存在，就引入缺失值；fill_

快速入門深度學習（2）遷移學習

咱們繼續入門課程系列，這次是關於遷移學習（Transfer Learning）的故事。這次咱們要“學習”一把了，針對特定的任務構造自己的分類器了。這次咱們仍然使用AlexNet的網路結構（誰讓它經典呢），訓練這個網路讓它為咱們服務。在正式Coding之前，首先

編譯原理學習周入門教程--（2）編譯程式的六個工作流程

上篇我們介紹了什麼是編譯程式，簡單提到了這個“工廠”工作的六個階段。本篇介紹一下這六個階段。 “工廠”導航圖（翻譯工作的過程）：流水線一--詞法分析：也就是從左到右一個一個的讀入源程

Hibernate學習（2）入門案例

上篇部落格已經把Hibernate概念和其中的核心介面介紹，下面舉個例項新增使用者來介紹Hibernate如何使用。 1、匯入jar檔案匯入antlr-2.7.6.jar 匯入commons

perl入門知識（2）

連接符用法 num 路徑常用函數表示取余運算符內容交互式編程你可以在命令行中使用 -e 選項來輸入語句來執行代碼，實例如下：$ perl -e ‘print "Hello World\n"‘輸入以上命令，回車後，輸出結果為：Hello World 腳本式編程

Java學習（2）：將鍵盤錄入的內容保存到指定文件中

stream exce 創建 txt 關閉如果下午 line 再次要求：保存鍵盤錄入的內容，當鍵盤輸入end時，錄入結束。 1 /** 2 * 保存鍵盤輸入，並以end結束 3 * 4 * @author xcx 5 * @time 2017年6

javascript學習（2）循環

src .cn tin asc for循環循環分享 ava bre 一、for循環 1、for(i=1;i<6;i++)循環 2、for(x in arrayA)循環二、while循環 1、while循環 2、do。。while循環三、continue

嵌入式開發學習（2）<S5PV210啟動過程詳解>

nan ios eight img 啟動方式 margin 需要外部啟動基本概念：內存：　　SRAM 靜態內存特點：容量小、價格高，優點：不需要軟件初始化，上電就能用。　　DRAM 動態內存特點：容量大、價格低，缺點：上電不能用，需要軟件初始化。　

JS函數學習（2）

有一個關鍵字引入 apply() call() get error 方法 version JavaScript的函數不但是“頭等公民”，而且可以像變量一樣使用，具有非常強大的抽象能力函數體內部的語句在執行時，一旦執行到return時，函數就執行完畢，並將結果返回。

vue2.0基礎學習（2）

center itl put keyword example 周期 med 移除監聽器博客（三）Vue2.0-選項選項就是在Vue構造器裏的配置功能的前綴 propsData 只用於 new 創建的實例中。 var Comp = Vue.extend({ pr

Pandas入門學習（2）

文章目錄

Pandas 基本功能

1、Series 基本屬性

axes 示例

empty 示例

ndim 示例

size 示例

values 示例

head() 和 tail() 方法示例

2、DataFrame 基本屬性

T(轉置)示例

axes 示例

dtype 示例

empty 示例

ndim 示例

shape 示例

size 示例

values 示例

head() 和 tail() 方法示例

3、DataFrame 描述統計

describe()示例

4、Pandas函式應用

表格函式應用

行或列函式應用

元素函式應用

5、Pandas 重建索引

示例

重建索引與其他物件對齊

重新命名

相關推薦