【pandas】 DataFrame的常用方法

阿新 • • 發佈：2019-01-29

____tz_zs

引數 axis

axis=0 對每一列進行操作

axis=1 對每一行進行操作

引數 skipna

計算中，pandas 會預設排除NaN值，設定 skipna=False 將不再排除 NaN 值

#!/usr/bin/python2.7
# -*- coding:utf-8 -*-

"""
@author:    tz_zs
"""

import numpy as np
import pandas as pd


data = [[1, 2, np.nan], [2, np.nan, 3], [7, 8, 9], [3, 4, 5]]
date_range = pd.date_range(start="20180701", periods=4)
df = pd.DataFrame(data=data, index=date_range,
                   columns=['a', 'b', 'c'])
print df
"""
            a    b    c
2018-07-01  1  2.0  NaN
2018-07-02  2  NaN  3.0
2018-07-03  7  8.0  9.0
2018-07-04  3  4.0  5.0
"""

sum

求和 df.sum()

# 對每一列求和,預設排除NaN值
print df.sum()
"""
a    13.0
b    14.0
c    17.0
dtype: float64
"""

# 對每一行求和,預設排除NaN值
print df.sum(axis=1)
"""
2018-07-01     3.0
2018-07-02     5.0
2018-07-03    24.0
2018-07-04    12.0
Freq: D, dtype: float64
"""


# 設定 skipna=False 將不再排除 NaN 值
print df.sum(skipna=False)
"""
a    13.0
b     NaN
c     NaN
dtype: float64
"""

print df.sum(axis=1,skipna=False)
"""
2018-07-01     NaN
2018-07-02     NaN
2018-07-03    24.0
2018-07-04    12.0
Freq: D, dtype: float64
"""

mean

求平均 df.mean


# 對每一行求平均值
print df.mean(axis=1)
"""
2018-07-01    1.5
2018-07-02    2.5
2018-07-03    8.0
2018-07-04    4.0
Freq: D, dtype: float64
"""


print df.mean(axis=1, skipna=False)
"""
2018-07-01    NaN
2018-07-02    NaN
2018-07-03    8.0
2018-07-04    4.0
Freq: D, dtype: float64
"""

max、min

最大最小值 df.max、df.min

# 最大最小值
print df.max()
print df.min()
"""
a    7.0
b    8.0
c    9.0
dtype: float64
a    1.0
b    2.0
c    3.0
dtype: float64
"""

idxmax、idxmin

最大最小值的索引 df.idxmax、df.idxmin


# 返回每一列中最大值的索引
print df.idxmax()
# 返回每一列中最小值的索引
print df.idxmin()
"""
a   2018-07-03
b   2018-07-03
c   2018-07-03
dtype: datetime64[ns]
a   2018-07-01
b   2018-07-01
c   2018-07-02
dtype: datetime64[ns]
"""

cumsum

累加 df.cumsum


# 對每一列累加
print df.cumsum()
"""
               a     b     c
2018-07-01   1.0   2.0   NaN
2018-07-02   3.0   NaN   3.0
2018-07-03  10.0  10.0  12.0
2018-07-04  13.0  14.0  17.0
"""


print df.median(axis=1)  # 中位數
"""
2018-07-01    1.5
2018-07-02    2.5
2018-07-03    8.0
2018-07-04    4.0
Freq: D, dtype: float64
"""

mad

根據平均值計算平均絕對離差 df.mad

print df.mad()  # 根據平均值計算平均絕對離差
"""
a    1.875000
b    2.222222
c    2.222222
dtype: float64
"""

std

標準差 df.std

print df.std()  # 標準差
"""
a    2.629956
b    3.055050
c    3.055050
dtype: float64
"""

var

方差 df.var

print df.var()  # 方差
"""
a    6.916667
b    9.333333
c    9.333333
dtype: float64
"""

diff

一階差分 df.diff

print df.diff()  # 計算一階差分
"""
              a    b    c
2018-07-01  NaN  NaN  NaN
2018-07-02  1.0  NaN  NaN
2018-07-03  5.0  NaN  6.0
2018-07-04 -4.0 -4.0 -4.0
"""

pct_change

百分數變化 df.pct_change


print df.pct_change()  # 計算百分數變化(在列上計算)
"""
                   a    b         c
2018-07-01       NaN  NaN       NaN
2018-07-02  1.000000  NaN       NaN
2018-07-03  2.500000  3.0  2.000000
2018-07-04 -0.571429 -0.5 -0.444444
"""
print df.pct_change(axis=1)  # 計算百分數變化(在行上計算)
"""
             a         b      c
2018-07-01 NaN  1.000000    NaN
2018-07-02 NaN       NaN  0.500
2018-07-03 NaN  0.142857  0.125
2018-07-04 NaN  0.333333  0.250
"""

corr

計算列與列之間的相關性，不計算包括NA / null值的列。

DataFrame.corr(method='pearson', min_periods=1)

引數：

method：

pearson：皮爾遜相關係數
kendall：肯德爾等級相關係數
spearman：斯皮爾曼等級相關係數

min_periods：為獲取有效結構，每對列所需的最小觀察資料量

返回：
關於原始DataFrame列與列之間相關性的DataFrame物件。

#!/usr/bin/python2.7
# -*- coding:utf-8 -*-

"""
@author:    tz_zs
"""

import pandas as pd

list_l = [[1, 3, 3, 5, ], [11, 7, 15, 13], [4, 2, 7, 9]]
index = ["2018-07-02", "2018-07-03", "2018-07-04"]
col = ['a', 'b', 'c', 'd']
df = pd.DataFrame(list_l, index=index, columns=col)
print(df)
"""
             a  b   c   d
2018-07-02   1  3   3   5
2018-07-03  11  7  15  13
2018-07-04   4  2   7   9
"""

df_corr = df.corr()
print(df_corr)
print(type(df_corr))
"""
          a         b         c         d
a  1.000000  0.883852  0.999322  0.974355
b  0.883852  1.000000  0.866025  0.755929
c  0.999322  0.866025  1.000000  0.981981
d  0.974355  0.755929  0.981981  1.000000
<class 'pandas.core.frame.DataFrame'>
"""

#!/usr/bin/python2.7
# -*- coding:utf-8 -*-

"""
@author:    tz_zs
"""

import pandas as pd

list_l = [[1, 3, 3, 5, ], [11, 7, 15, 13], [4, 2, 7, None]]
index = ["2018-07-02", "2018-07-03", "2018-07-04"]
col = ['a', 'b', 'c', 'd']
df = pd.DataFrame(list_l, index=index, columns=col)
print(df)
"""
             a  b   c     d
2018-07-02   1  3   3   5.0
2018-07-03  11  7  15  13.0
2018-07-04   4  2   7   NaN
"""

df_corr = df.corr()
print(df_corr)
print(type(df_corr))
"""
          a         b         c    d
a  1.000000  0.883852  0.999322  1.0
b  0.883852  1.000000  0.866025  1.0
c  0.999322  0.866025  1.000000  1.0
d  1.000000  1.000000  1.000000  1.0
<class 'pandas.core.frame.DataFrame'>
"""

end

【pandas】 DataFrame的常用方法

____tz_zs 引數 axis axis=0 對每一列進行操作 axis=1 對每一行進行操作引數 skipna 計算中，pandas 會預設排除NaN值，設定 skipna=False 將不再排除 NaN 值 . #!/usr/bin/python2

【轉】appium常用方法整理

利用 context finished too 取不到值結束刪除 per author 1、相對坐標解鎖九宮格應用場景 QQ解鎖屏幕如上，可見九個按鍵在同一個View下面，要實現解鎖，用press moveTo release perform方法實現代碼

【Java】HttpServletRequest常用方法2012-9-22

HttpServletRequest常用方法 ServletRequest介面:請求物件,封裝了獲取所有請求資訊(請求行,請求頭,請求實體)的方法. HttpServletRequest介面:是Serv

【pandas】dataframe去空字串處理

參考：dataframe.replace官方文件 1 問題在處理資料的時候遇到一個問題是，明明某些列有很多是空的，但是在python裡用dataframe.info統計出來並不是空的，就很奇怪，排查之後發現在我的excel表裡這些資料看起來是空的值，但其實是一個空格。

pandas之DataFrame常用方法

1 簡介 DataFrame是Python中Pandas庫中的一種資料結構，它類似excel，是一種二維表。或許說它可能有點像matlab的矩陣，但是matlab的矩陣只能放數值型值（當然matlab也可以用cell存放多型別資料），DataFrame的單元格可以存放數值、字串等，這和ex

【python】tensorflow常用方法

1、初始化變數tf.get_variable(name, shape, initializer):name：變數名稱shape：變數的維度initializer:變數初始化的方式初始化的方式有以下幾種：tf.constant_initializer：常量初始化函式tf.ra

Python學習筆記 —— 數字型別【Numbers】及常用方法

Tips: 在Python中資料型別不允許改變的，如果改變了，則會重新分配記憶體空間。 pi: 數字常量pi(圓周率) e:自然常數 Numbers支援四種不同的數值型

【python】切片常用方法

使用形式意義 alst[:] 取全部成員資料項 alst[0:] 取全部成員資料項 alst[:-1] 取除最後一個成員外所有成員資料項 alst[2:5] 取下標為2到下標為4的成員資料項 alst[::2] 下標為0開始，每隔一個取一項 alst[0:5:2] 下標從

【pandas】apply方法傳入dataframe多列進行函式操作

參考：dataframe.apply官方文件 How to apply a function to two columns of Pandas dataframe python pandas- apply function with two arguments to colu

機器學習 Python基礎1 Pandas DataFrame 常用方法速查手冊中文版

本文轉載自知乎文章 Pandas速查手冊中文版，原英文版 Pandas Cheat Sheet - Python for Data Science，在這基礎上加入了一些自己的理解。 Pandas 速查手冊匯入資料匯出資料建立測試物件檢視、

機器學習 Python基礎2 Pandas DataFrame 常用方法實踐

Pandas DataFrame 常用方法實踐常見的物件型別【pandas.core.series.Series】【pandas.core.frame.DataFrame】常用方法實踐 1）重新索引

【轉載】JavaScript常用陣列操作方法，包含ES6方法

一、concat() concat() 方法用於連線兩個或多個數組。該方法不會改變現有的陣列，僅會返回被連線陣列的一個副本。 var arr1 = [1,2,3]; var arr2 = [4,5]; var arr3 = arr1.concat(arr2); console.log(

【pandas】[3] DataFrame通過資料型別選擇子資料框

DataFrame.select_dtypes(include=None, exclude=None) Return a subset of the DataFrame’s columns based on the column dtypes. Parameters:

【Pandas】常規方法使用

文章目錄count count import pandas as pd a=[['1','2','5'],['1','4','7'],['2','5','6']] b=pd.DataFrame(a,co

【轉】C++ 常用的STL查詢函式方法

《effective STL》中有句忠告，儘量用演算法替代手寫迴圈；查詢少不了迴圈遍歷，在這裡總結下常用的STL查詢演算法；查詢有三種，即點線面：點就是查詢目標為單個元素；線就是查詢目標為區間；面就是查詢目標為集合；針對每個類別的查

【pandas】[2] DataFrame 基礎，建立DataFrame和增刪改查基本操作（1）

作者：lianghc 地址：http://blog.csdn.net/zutsoft DataFrame 是pandas最常用的資料結構，類似於資料庫中的表，不過DataFrame不僅僅限制於2維，可以建立多維資料表。DataFrame既有行索引，也有列

【pandas】[3] DataFrame 資料合併，連線（merge,join,concat)

作者：lianghc merge 通過鍵拼接列 pandas提供了一個類似於關係資料庫的連線(join)操作的方法<Strong>merage</Strong>,可以根據一個或多個鍵將不同DataFrame中的行連線起來語法如下 merge(l

【python】python魔法方法(待填坑)

絕對值 tle init cls -m del __init__ 另一個 trunc 參考博文：http://pyzh.readthedocs.io/en/latest/python-magic-methods-guide.html 參考博文英文原版：http://www

面向對象【day08】：靜態方法、類方法、屬性方法

name 每次對象 sha 飛走了 tee func ssm [0 本節內容概述靜態方法類方法屬性方法總結一、概述　前面我們已經講解了關於類的很多東西，今天講講類的另外的特性：靜態方法(staticmethod)、類方法(classmethod)、屬性

【Linux】Linux 常用命令匯總

後臺 tab 什麽 ant netmask req 正則智能推薦速度查看軟件xxx安裝內容：dpkg -L xxx 查找軟件庫中的軟件：apt-cache search 正則表達式查找軟件庫中的軟件：aptitude search 軟件包查找文件屬於哪個包：dpk

【pandas】 DataFrame的常用方法

sum

mean

max、min

idxmax、idxmin

cumsum

mad

std

var

diff

pct_change

corr

相關推薦