Pandas的函數應用、層級索引、統計計算

阿新 • • 發佈：2017-11-19

類型 das 其他 style 升序 src 填充排除個數

1.Pandas的函數應用

1.apply 和 applymap

1. 可直接使用NumPy的函數

示例代碼：

# Numpy ufunc 函數
df = pd.DataFrame(np.random.randn(5,4) - 1)
print(df)

print(np.abs(df))

運行結果：

          0         1         2         3
0 -0.062413  0.844813 -1.853721 -1.980717
1 -0.539628 -1.975173 -0.856597 -2.612406
2 -1.277081 -1.088457 -0.152189  0.530325
3 -1.356578 -1.996441  0.368822 -2.211478
4 -0.562777  0.518648 -2.007223  0.059411

          0          
1         2         3
0  0.062413  0.844813  1.853721  1.980717
1  0.539628  1.975173  0.856597  2.612406
2  1.277081  1.088457  0.152189  0.530325
3  1.356578  1.996441  0.368822  2.211478
4  0.562777  0.518648  2.007223  0.059411

2. 通過apply將函數應用到列或行上

示例代碼：

# 使用apply應用行或列數據
#f = lambda x : x.max()
print(df.apply(lambda 
 x : x.max()))

運行結果：

0   -0.062413
1    0.844813
2    0.368822
3    0.530325
dtype: float64

註意指定軸的方向，默認axis=0，方向是列

示例代碼：

# 指定軸方向，axis=1，方向是行
print(df.apply(lambda x : x.max(), axis=1))

運行結果：

0    0.844813
1   -0.539628
2    0.530325
3    0.368822
4    0.518648
dtype: float64

3. 通過applymap將函數應用到每個數據上

示例代碼：

# 使用applymap應用到每個數據
f2 = lambda x : ‘%.2f‘ % x
print(df.applymap(f2))

運行結果：

       0      1      2      3
0  -0.06   0.84  -1.85  -1.98
1  -0.54  -1.98  -0.86  -2.61
2  -1.28  -1.09  -0.15   0.53
3  -1.36  -2.00   0.37  -2.21
4  -0.56   0.52  -2.01   0.06

2.排序

1. 索引排序

sort_index()

排序默認使用升序排序，ascending=False 為降序排序

示例代碼：

# Series
s4 = pd.Series(range(10, 15), index = np.random.randint(5, size=5))
print(s4)

# 索引排序
s4.sort_index() # 0 0 1 3 3
print(s4.sort_index())

運行結果：

0    10
3    11
1    12
3    13
0    14
dtype: int64

0    10
0    14
1    12
3    11
3    13
dtype: int64

2.對DataFrame操作時註意軸方向

示例代碼：

# DataFrame
df4 = pd.DataFrame(np.random.randn(3, 5), 
                   index=np.random.randint(3, size=3),
                   columns=np.random.randint(5, size=5))
print(df4)

df4_isort = df4.sort_index(axis=1, ascending=False)
print(df4_isort) # 4 2 1 1 0

運行結果：

          1         4         0         1         2
2 -0.416686 -0.161256  0.088802 -0.004294  1.164138
1 -0.671914  0.531256  0.303222 -0.509493 -0.342573
1  1.988321 -0.466987  2.787891 -1.105912  0.889082

          4         2         1         1         0
2 -0.161256  1.164138 -0.416686 -0.004294  0.088802
1  0.531256 -0.342573 -0.671914 -0.509493  0.303222
1 -0.466987  0.889082  1.988321 -1.105912  2.787891

3. 按值排序

sort_values(by=‘column name‘)

根據某個唯一的列名進行排序，如果有其他相同列名則報錯。

示例代碼：

# 按值排序,by=0,如果沒有0，也會報錯，重新運行一下，直到有0就不報錯了
df4_vsort = df4.sort_values(by=0, ascending=False)
print(df4_vsort)

運行結果：

          1         4         0         1         2
1  1.988321 -0.466987  2.787891 -1.105912  0.889082
1 -0.671914  0.531256  0.303222 -0.509493 -0.342573
2 -0.416686 -0.161256  0.088802 -0.004294  1.164138

3.處理缺失數據

示例代碼：

df_data = pd.DataFrame([np.random.randn(3), [1., 2., np.nan],
                       [np.nan, 4., np.nan], [1., 2., 3.]])
print(df_data.head())

運行結果：

          0         1         2
0 -0.281885 -0.786572  0.487126
1  1.000000  2.000000       NaN
2       NaN  4.000000       NaN
3  1.000000  2.000000  3.000000

1. 判斷是否存在缺失值：isnull()

示例代碼：

# isnull
print(df_data.isnull())

運行結果：

       0      1      2
0  False  False  False
1  False  False   True
2   True  False   True
3  False  False  False

2. 丟棄缺失數據：dropna()

根據axis軸方向，丟棄包含NaN的行或列。

示例代碼：

# dropna
print(df_data.dropna())

print(df_data.dropna(axis=1))

運行結果：

          0         1         2
0 -0.281885 -0.786572  0.487126
3  1.000000  2.000000  3.000000

          1
0 -0.786572
1  2.000000
2  4.000000
3  2.000000

3. 填充缺失數據：fillna()

示例代碼：

# fillna
print(df_data.fillna(-100.))

運行結果：

            0         1           2
0   -0.281885 -0.786572    0.487126
1    1.000000  2.000000 -100.000000
2 -100.000000  4.000000 -100.000000
3    1.000000  2.000000    3.000000

2.層級索引（hierarchical indexing）

下面創建一個Series，在輸入索引Index時，輸入了由兩個子list組成的list，第一個子list是外層索引，第二個list是內層索引。

示例代碼：

import pandas as pd
import numpy as np

ser_obj = pd.Series(np.random.randn(12),index=[
                [‘a‘, ‘a‘, ‘a‘, ‘b‘, ‘b‘, ‘b‘, ‘c‘, ‘c‘, ‘c‘, ‘d‘, ‘d‘, ‘d‘],
                [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]
            ])
print(ser_obj)

運行結果：

a  0    0.099174
   1   -0.310414
   2   -0.558047
b  0    1.742445
   1    1.152924
   2   -0.725332
c  0   -0.150638
   1    0.251660
   2    0.063387
d  0    1.080605
   1    0.567547
   2   -0.154148
dtype: float64

1.MultiIndex索引對象

打印這個Series的索引類型，顯示是MultiIndex
直接將索引打印出來，可以看到有lavels,和labels兩個信息。lavels表示兩個層級中分別有那些標簽，labels是每個位置分別是什麽標簽。
示例代碼：

print(type(ser_obj.index))
print(ser_obj.index)

運行結果：

<class ‘pandas.indexes.multi.MultiIndex‘>
MultiIndex(levels=[[‘a‘, ‘b‘, ‘c‘, ‘d‘], [0, 1, 2]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]])

2.選取子集

根據索引獲取數據。因為現在有兩層索引，當通過外層索引獲取數據的時候，可以直接利用外層索引的標簽來獲取。

當要通過內層索引獲取數據的時候，在list中傳入兩個元素，前者是表示要選取的外層索引，後者表示要選取的內層索引。

1. 外層選取：

ser_obj[‘outer_label‘]

示例代碼：

# 外層選取
print(ser_obj[‘c‘])

運行結果：

0   -1.362096
1    1.558091
2   -0.452313
dtype: float64

內層選取：

ser_obj[:, ‘inner_label‘]

示例代碼：

# 內層選取
print(ser_obj[:, 2])

運行結果：

a    0.826662
b    0.015426
c   -0.452313
d   -0.051063
dtype: float64

常用於分組操作、透視表的生成等

3.交換分層順序

1. swaplevel()

.swaplevel( )交換內層與外層索引。
示例代碼：

print(ser_obj.swaplevel())

運行結果：

0  a    0.099174
1  a   -0.310414
2  a   -0.558047
0  b    1.742445
1  b    1.152924
2  b   -0.725332
0  c   -0.150638
1  c    0.251660
2  c    0.063387
0  d    1.080605
1  d    0.567547
2  d   -0.154148
dtype: float64

4.交換並排序分層 sortlevel()

.sortlevel( )先對外層索引進行排序，再對內層索引進行排序，默認是升序。
示例代碼：

# 交換並排序分層
print(ser_obj.swaplevel().sortlevel())

運行結果：

0  a    0.099174
   b    1.742445
   c   -0.150638
   d    1.080605
1  a   -0.310414
   b    1.152924
   c    0.251660
   d    0.567547
2  a   -0.558047
   b   -0.725332
   c    0.063387
   d   -0.154148
dtype: float64

3.Pandas統計計算和描述

示例代碼：

import numpy as np
import pandas as pd

df_obj = pd.DataFrame(np.random.randn(5,4), columns = [‘a‘, ‘b‘, ‘c‘, ‘d‘])
print(df_obj)

運行結果：

          a         b         c         d
0  1.469682  1.948965  1.373124 -0.564129
1 -1.466670 -0.494591  0.467787 -2.007771
2  1.368750  0.532142  0.487862 -1.130825
3 -0.758540 -0.479684  1.239135  1.073077
4 -0.007470  0.997034  2.669219  0.742070

1.常用的統計計算

sum, mean, max, min…

axis=0 按列統計，axis=1按行統計

skipna 排除缺失值，默認為True

示例代碼：

df_obj.sum()

df_obj.max()

df_obj.min(axis=1, skipna=False)

運行結果：

a    0.605751
b    2.503866
c    6.237127
d   -1.887578
dtype: float64

a    1.469682
b    1.948965
c    2.669219
d    1.073077
dtype: float64

0   -0.564129
1   -2.007771
2   -1.130825
3   -0.758540
4   -0.007470
dtype: float64

2.常用的統計描述

describe 產生多個統計數據

示例代碼：

print(df_obj.describe())

運行結果：

              a         b         c         d
count  5.000000  5.000000  5.000000  5.000000
mean   0.180305  0.106488  0.244978  0.178046
std    0.641945  0.454340  1.064356  1.144416
min   -0.677175 -0.490278 -1.164928 -1.574556
25%   -0.064069 -0.182920 -0.464013 -0.089962
50%    0.231722  0.127846  0.355859  0.190482
75%    0.318854  0.463377  1.169750  0.983663
max    1.092195  0.614413  1.328220  1.380601

3.常用的統計描述方法：

Pandas的函數應用、層級索引、統計計算

類型 das 其他 style 升序 src 填充排除個數 1.Pandas的函數應用 1.apply 和 applymap 1. 可直接使用NumPy的函數示例代碼： # Numpy ufunc 函數 df = pd.DataFrame(np.rando

Python單行函數lambda(小米)加reduce、map、filter(步槍)應用

() 列表數據程序 src lis text 小米 python 什麽是lambda？ lambda定義匿名函數，並不會帶來程序運行效率的提高，只會使代碼更簡潔。為了減少單行函數的定義而存在的。 lambda的使用大量簡化了代碼，使代碼簡練清晰。但是值得註意的是，這會在

【JavaScript基礎筆記】模塊化、立即執行函數應用、閉包應用

效果 chrom all 匿名函數兩種關鍵字 ebe light scrip 模塊化：為了提高JS代碼的長期可讀性，易維護性，將JS代碼根據其對應的功能塊區分成不同的JS文件，並將其包裹在立即執行函數內，從而使其中的變量設定為局部變量，不會造成不同模塊的變量汙染。

JavaScript的進階之路（二）函數簡介，變量、作用域和內存問題

ret 優化 person get 簡介 web瀏覽器都是 add 是把 <h3>ECMAScript中函數不存在函數簽名的概念，沒有重載</h3><h3>無需指定返回值，可以在任何時候返回任何值。未指定返回值的函數，返回的是一個特殊

Mysql 函數使用記錄(三)——UNIX_TIMESTAMP() 、UNIX_TIMESTAMP(date)

func http 5.7 style functions 參考 lec pla sel 參考資料：https://dev.mysql.com/doc/refman/5.7/en/date-and-time-functions.html#function_unix-time

Oracle分析函數-排序排列（rank、dense_rank、row_number）

2.0 有時 weight style tile log rownum 可能 ins (1)rank函數返回一個唯一的值，除非遇到相同的數據時，此時所有相同數據的排名是一樣的，同時會在最後一條相同記錄和下一條不同記錄的排名之間空出排名。 (2)dense_rank函數返回一

數據庫存儲結構：頁、聚集索引、非聚集索引

創建方法 6.2 insert語句方式放置變化分支通過數據庫存儲結構：頁、聚集索引、非聚集索引想了解數據庫存儲結構，因先了解數據庫的訪問方式然後從原理上理解數據庫存儲結構方式。一、SQL Server中訪問數據的方式從廣義上講，SQL Server檢索所

學習筆記（九）——數據庫存儲結構：頁、聚集索引、非聚集索引

分享 style end 宋體 blog lec storage rop cas 1、頁 SQL Server用8KB 的頁來存儲數據，並且在SQL Server裏磁盤 I/O 操作在頁級執行。也就是說，SQL Server 讀取或寫入所有數據頁。頁有不同的類型，像

JavaScript學習記錄day6-函數變量作用域、解構賦值與方法

標準只有一個 from 裝飾器喜歡賦值全局 lang edge JavaScript學習記錄day6-函數變量作用域、解構賦值與方法 @(學習)[javascript] [TOC] 1. 作用域在JavaScript中，用var申明的變量實際上是有作用域的。如果

內置函數補充，str方法、del方法和 call方法和元祖

方式 mysql peer 自動調用 title error 實例化首字母 utf 一、內置函數補充 1.isinstance函數： isinstance(obj,cls)檢查obj是否是類 cls 的對象使用

[Windows報錯]要求的函數不受支持、這可能是由於 CredSSP 加密 Oracle 修正

僅供參考 word 修改 https port enter 沒有 size 期待版本說明：服務器版本：Windows Server 2008 R2 SP1（虛機）客戶端版本：Windows 10 家庭版問題描述：使用Windows遠程桌面連接時彈出如下描述的錯

函數進階---作用域、閉包、裝飾器

閉包查看就是喜歡 name 應該 tro 變量擴展名稱空間名稱空間指存放名字的地方名稱空間分為三種： locals:函數內部的名稱空間，包括局部變量與形參 globals:全局變量，函數模塊定義所在模塊的空間 builtins 內置模塊的名稱空間不

Python全棧__函數的有用信息、帶參數的裝飾器、多個裝飾器裝飾一個函數

G1 lee 參數 sed 信息 back red cdc subclass 1、函數的有用信息　　代碼1： 1 def login(username, password): 2 """ 3 此函數需要用戶名，密碼兩個參數，完成的是登

scanf函數和cin的區別、類的數組、C++排序函數

讀取 sin 出現 vector names 排序 iostream print main 給定n個字符串，將這n個字符串按照字典序進行排列，此處用排列函數是C++的庫函數sort，產生如下兩個疑問，望大佬解答 #include <iostream> #inc

海量數據查詢關系型數據庫存儲大數據，要點就是：簡單存儲、分區分表、高效索引、批量寫入

都是 query add 每天 second 控制 use 獨立條件海量數據查詢 https://www.cnblogs.com/nnhy/p/DbForBigData.html 相當一部分大數據分析處理的原始數據來自關系型數據庫，處理結果也存放在關系型數據庫中。原因在

進程間的數據共享、進程池的回調函數和線程初識、守護線程

arch 時空能夠回調數據安全 args async 並且放棄一、進程的數據共享進程間數據是獨立的，可以借助於隊列或管道實現通信，二者都是基於消息傳遞的雖然進程間數據獨立，但可以通過Manager實現數據共享。把所有實現了數據共享的比較便捷的類

函數對象的call()、apply() 方法區別

方法區法規名稱 nan 一個函數對象 con 實參列表函數對象的call()、apply() 方法函數作為對象提供了call()，apply() 方法，他們也可以用來調用函數，這兩個方法都接受一個對象作為參數，用來指定本次調用時函數中this的指向；

什麼是函數語言程式設計（副作用、純函式、引用透明）

　　　　副作用的概念：一個帶有副作用的函式不僅只是簡單的返回一個值，還幹了一些其他的事情，比如: 修改一個變數直接修改資料結構設定一個物件的成員丟擲一個異常或以一個錯誤終止列印到終端或讀取使用者的輸入

JS陣列操作(陣列增加、刪除、翻轉、轉字串、取索引、擷取(切片)slice、剪接splice、數組合並)

POP 刪除最後一項刪除最後一項,並返回刪除元素的值；如果陣列為空則返回undefine var a = [1,2,3,4,5]; a.pop();//a：[1, 2, 3, 4] a.pop();//a：[1, 2, 3] a.pop();//a：[1, 2] shif

JavaScript：陣列增加、刪除、翻轉、轉字串、取索引、擷取(切片)slice、剪接splice、數組合並

POP 刪除最後一項刪除最後一項,並返回刪除元素的值；如果陣列為空則返回undefine var a = [1,2,3,4,5]; a.pop();//a：[1, 2, 3, 4] a.pop();//a：[1, 2, 3] a.pop();//a：[1, 2] s

Pandas的函數應用、層級索引、統計計算

1.Pandas的函數應用

1.apply 和 applymap

2.排序

3.處理缺失數據

2.層級索引（hierarchical indexing）

1.MultiIndex索引對象

2.選取子集

3.交換分層順序

4.交換並排序分層 sortlevel()

3.Pandas統計計算和描述

1.常用的統計計算

2.常用的統計描述

3.常用的統計描述方法：

相關推薦