pandas中時間窗函式rolling的使用

阿新 • • 發佈：2019-02-05

在建模過程中，我們常常需要需要對有時間關係的資料進行整理。比如我們想要得到某一時刻過去30分鐘的銷量（產量，速度，消耗量等），傳統方法複雜消耗資源較多，pandas提供的rolling使用簡單，速度較快。

函式原型和引數說明

DataFrame.rolling(window, min_periods=None, freq=None, center=False, win_type=None, on=None, axis=0, closed=None)

window：表示時間窗的大小，注意有兩種形式（int or offset）。如果使用int，則數值表示計算統計量的觀測值的數量即向前幾個資料。如果是offset型別，表示時間窗的大小。pandas offset相關可以參考

這裡。
min_periods：最少需要有值的觀測點的數量，對於int型別，預設與window相等。對於offset型別，預設為1。
freq：從0.18版本中已經被捨棄。

center：是否使用window的中間值作為label，預設為false。只能在window是int時使用。


# 為方便觀察，並列排列

df = pd.DataFrame({'B': [0, 1, 2, np.nan, 4]})
df.rolling(3, min_periods=1).sum()
df.rolling(3, min_periods=1, center=True).sum()
    B    B1   B2
0 
   0.0  0.0  1.0
1   1.0  1.0  3.0
2   2.0  3.0  3.0
3   NaN  3.0  6.0
4   4.0  6.0  4.0

win_type：視窗型別，預設為None一般不特殊指定，瞭解支援的其他視窗型別，參考這裡。
on：對於DataFrame如果不使用index（索引）作為rolling的列，那麼用on來指定使用哪列。
closed：定義區間的開閉，曾經支援int型別的window，新版本已經不支援了。對於offset型別預設是左開右閉的即預設為right。可以根據情況指定為left both等。
axis：方向（軸），一般都是0。

舉例

一個簡單的場景，從A向B運送東西，我們想看一下以3秒作為一個時間窗運送的量。

# A地有兩個倉庫，都運往B。
df = pd.DataFrame({'1': ['A1', 'A2', 'A1', 'A2', 'A2', 'A1', 'A2'],
                  '2': ['B1', 'B1', 'B1', 'B1', 'B1', 'B1', 'B1'],
                  'num': [1,2,1,3,4,2,1]}, 
                 index = [pd.Timestamp('20130101 09:00:00'),
                          pd.Timestamp('20130101 09:00:01'),
                          pd.Timestamp('20130101 09:00:02'),
                          pd.Timestamp('20130101 09:00:03'),
                          pd.Timestamp('20130101 09:00:04'),
                          pd.Timestamp('20130101 09:00:05'),
                          pd.Timestamp('20130101 09:00:06')])
#   1   2   num
# 2013-01-01 09:00:00   A1  B1  1
# 2013-01-01 09:00:01   A2  B1  2
# 2013-01-01 09:00:02   A1  B1  1
# 2013-01-01 09:00:03   A2  B1  3
# 2013-01-01 09:00:04   A2  B1  4
# 2013-01-01 09:00:05   A1  B1  2
# 2013-01-01 09:00:06   A2  B1  1

使用rolling進行計算

# 首先我們先對groupby進行聚合(如果只有從A->B，那麼不用聚合一個rolling就可以)
# 以9:00:04秒為例，由於時間窗是3s，預設的closed是right，所以我們相加04，03，02秒的num，共有4+3+0=7
df.groupby(['1', '2'])['num'].rolling('3s').sum()
# 1   2                      
# A1  B1  2013-01-01 09:00:00    1.0
#         2013-01-01 09:00:02    2.0
#         2013-01-01 09:00:05    2.0
# A2  B1  2013-01-01 09:00:01    2.0
#         2013-01-01 09:00:03    5.0
#         2013-01-01 09:00:04    7.0
#         2013-01-01 09:00:06    5.0
# Name: num, dtype: float64

由於使用groupby，所以最後的結果是MultiIndex，想使用正常格式在DataFrame上使用reset_index()即可。

pandas中時間窗函式rolling的使用

在建模過程中，我們常常需要需要對有時間關係的資料進行整理。比如我們想要得到某一時刻過去30分鐘的銷量（產量，速度，消耗量等），傳統方法複雜消耗資源較多，pandas提供的rolling使用簡單，速度較快。函式原型和引數說明 DataFrame.roll

使用pandas時間視窗函式rolling完成量化交易之移動平均線

要想理解移動平均線，先來理解移動平均的概念。移動平均線、乖離率、相對強弱指數、均量線等技術指標都是在移動平均基礎上建立起來的。移動平均線<–移動平均數<–移動平均<–算術平均。 1、2、3、4、5、6、7、8、9、10、11、12、13 前十個數的平均值是5.

pandas中時間序列——date_range函式

通過?pandas.date_range命令檢視date_range函式幫助文件語法：pandas.date_range(start=None, end=None, periods=None, freq='D', tz=None, normalize=False, nam

【原】資料視覺化之Matplotlib : pandas中的繪圖函式

Pandas有許多能夠利用DataFrame物件資料組織特點來建立標準圖表的高階繪圖方法，本文主要介紹的是pandas中的繪圖函式。 #coding:utf-8 import matplotlib.pyplot as plt import pandas as pd import numpy as np fr

Pandas中常用的函式使用

1、離散值的onehot編碼 pd.get_dummies（） import pandas as pd #對於離散值不能進行編碼的利用onehot編碼 df = pd.DataFrame([ ['green', 'M', 10.1, 'class1'], ['red', 'L'

pandas中的to_sql()函式將csv檔案寫入到MySQL資料庫

掌握了利用pandas中的to_sql函式將csv檔案儲存到MySQL資料庫中.具體方法如下：首先，在資料庫中建立表格，這裡是使用資料庫操作語言，並非python. CREATE TABLE cars ( 1 bigint(20) DEFAULT N

pandas 中有關agg函式和apply函式的區別

在利用python進行資料分析這本書中其實沒有明確表明這兩個函式的卻別，而是說apply更一般化. 其實在這本書的第九章‘陣列及運算和轉換’點到了兩者的一點點區別：agg是用來聚合運算的，所謂的聚合當然是合成的成分比較大些，這一節開頭就點到了：聚合只不過是分組運算的其中一

pandas中的apply函式對dataFrame操作

apply函式可以對dataFrame中的資料進行操作原始資料data：為了區分是對行操作的還是對列操作的，所以將index設定成了字母，將column是設定成了數字reshape（4,4）重新構造成4*4的矩陣對指定列元素進行操作：對指定行元素進行操作：對所有列進行操作：對

mysql中時間查詢函式（包括時間戳）

這些函式都是MySQL自帶的，可以直接使用在PHP寫的MySQL查詢語句中哦 1-CURDATE()或CURRENT_DATE()和CURTIME()或CURRENT_TIME() 這兩個函式是比較常用到的，顧名思義，第一個返回當前日期，第二個返回當前時間可以在MySQL

pandas中的groupby函式的分組結果怎麼儲存成DataFrame

在使用pandas進行資料統計分析時，作為一個小白糾結了好久如何儲存groupby函式的分組結果，本打算放棄了，一個偶然的機會看前人分享的程式碼才發現了可以通過reset_index()函式將groupby()的分組結果轉換成DataFrame物件。程式碼舉例： t

Python量化交易|pd.expanding() VS pd.rolling() 時間視窗函式區別圖解

pandas.rolling()前文已經介紹過了，蟲洞 pandas.expanding() 官方文件 pd.DataFrame.expanding(min_periods=1, center=False, axis=0)

Oracle中時間日期格式轉換及常用日期函式

我的第一篇部落格，記錄學習，分享生活。 Oracle時間日期格式轉換：主要有兩種格式，一種為日期格式date，一種為字元格式char。查詢當前日期： select sysdate from dual; 將日期轉化為字元格式，可以對日期進行一些操作 --顯示所有僱員的姓名和加

javascript中常見的函式封裝：判斷是否是手機，判斷是否是微信，獲取url地址？後面的具體引數值，毫秒格式化時間，手機端px、rem尺寸轉換等

// 判斷是否是手機 function plat_is_mobile(){ 　　var sUserAgent = navigator.userAgent.toLowerCase(); 　　var bIsIpad = sUserAgent.match(/ipad/i) == "ipad"; 　　var

解析Cloudsim中，獲取虛擬機器遷移之前的時間的函式：getTimesBeforeVmMigration（）

public static List<Double> getTimesBeforeVmMigration(List<Vm> vms) { //獲取虛擬機器遷移之前的時間。引數：虛擬機器列表。返回：虛擬機器遷移之前的時間列表

pandas 學習彙總10 - 統計：視窗函式rolling，expanding( tcy)

視窗函式rolling，expanding 2018/12/4 主要用在統計方面。 1.函式 df.rolling(window,

pandas中的時間序列基礎

重要的資料形式時間序列 datetime以毫秒形式儲存日期和時間 now = datetime.now() now datetime.datetime(2018, 12, 18, 14, 18, 27, 693445) #now是一個時間物件 now.year,now.month,now.day (2

Ｃ語言中關於時間的函式

一．概念在C/C++中，通過學習許多C/C++庫，你可以有很多操作、使用時間的方法。但在這之前你需要了解一些“時間”和“日期”的概念，主要有以下幾個： 1. 協調世界時，又稱為世界標準時間，也就是大家所熟知的格林威治標準時間（Greenwich Mean Tim

python—pandas中DataFrame型別資料操作函式

python資料分析工具pandas中DataFrame和Series作為主要的資料結構. 本文主要是介紹如何對DataFrame資料進行操作並結合一個例項測試操作函式。 1）檢視DataFrame資料及屬性 df_obj = DataFrame() #建

Linux中獲得程式時間的函式

精確一點的是用gettimeofday()，不精確的可以用clock();1、gettimeofday()函式1.簡介：在C語言中可以使用函式gettimeofday()函式來得到時間。它的精度可以達到微妙2.函式原型：#include<sys/time.h>in

python | pandas | 移動視窗函式rolling

超級好用的移動視窗函式最近經常使用移動視窗函式，覺得很方便，功能強大，程式碼簡單，故將pandas中的移動視窗函式都做介紹。它都是以rolling打頭的函式，後接具體的函式，來顯示該移動視窗函式的功能。 rolling_count 計算各個視窗中

pandas中時間窗函式rolling的使用

相關推薦