python+pandas生成指定日期和重取樣

阿新 • • 發佈：2019-01-03

python 日期的範圍、頻率、重取樣以及頻率轉換

pandas有一整套的標準時間序列頻率以及用於重取樣、頻率推斷、生成固定頻率日期範圍的工具。

生成指定日期範圍的範圍

pandas.date_range()用於生成指定長度的DatatimeIndex：

1）預設情況下，date_range會按著時間間隔為天的方式生成從給定開始到結束時間的時間戳陣列；

2）如果只指定開始或結束時間，還需要periods標定時間長度。

import pandas as pd
pd.date_range('2017-6-20','2017-6-27')

    DatetimeIndex(['2017-06-20' 
, '2017-06-21', '2017-06-22', '2017-06-23',
                   '2017-06-24', '2017-06-25', '2017-06-26', '2017-06-27'],
                  dtype='datetime64[ns]', freq='D')

pd.date_range('2017-6-20 12:59:30','2017-6-27')

    DatetimeIndex(['2017-06-20 12:59:30', '2017-06-21 12:59:30',
                   '2017-06-22 12:59:30' 
, '2017-06-23 12:59:30',
                   '2017-06-24 12:59:30', '2017-06-25 12:59:30',
                   '2017-06-26 12:59:30'],
                  dtype='datetime64[ns]', freq='D')

pd.date_range('2017-6-20 12:59:30',periods = 8)

    DatetimeIndex(['2017-06-20 12:59:30', '2017-06-21 12:59:30',
                   '2017-06-22 12:59:30' 
, '2017-06-23 12:59:30',
                   '2017-06-24 12:59:30', '2017-06-25 12:59:30',
                   '2017-06-26 12:59:30', '2017-06-27 12:59:30'],
                  dtype='datetime64[ns]', freq='D')

pd.date_range('2017-6-20 12:59:30',periods = 8, normalize = True)

    DatetimeIndex(['2017-06-20', '2017-06-21', '2017-06-22', '2017-06-23',
                   '2017-06-24', '2017-06-25', '2017-06-26', '2017-06-27'],
                  dtype='datetime64[ns]', freq='D')

頻率和日期偏移量

pandas中的頻率是由一個基礎頻率（M、H）也可以是（Hour、Minute、h、min等）

pd.date_range('2017-6-27',periods = 7,freq = '1h30min')

    DatetimeIndex(['2017-06-27 00:00:00', '2017-06-27 01:30:00',
                   '2017-06-27 03:00:00', '2017-06-27 04:30:00',
                   '2017-06-27 06:00:00', '2017-06-27 07:30:00',
                   '2017-06-27 09:00:00'],
                  dtype='datetime64[ns]', freq='90T')

pd.date_range('2017-6-27',periods = 7,freq = 'M')

    DatetimeIndex(['2017-06-30', '2017-07-31', '2017-08-31', '2017-09-30',
                   '2017-10-31', '2017-11-30', '2017-12-31'],
                  dtype='datetime64[ns]', freq='M')

pd.date_range('2017-6-27',periods = 7,freq = 'd')

    DatetimeIndex(['2017-06-27', '2017-06-28', '2017-06-29', '2017-06-30',
                   '2017-07-01', '2017-07-02', '2017-07-03'],
                  dtype='datetime64[ns]', freq='D')

pd.date_range('2017-6-27',periods = 7,freq = 'H')

    DatetimeIndex(['2017-06-27 00:00:00', '2017-06-27 01:00:00',
                   '2017-06-27 02:00:00', '2017-06-27 03:00:00',
                   '2017-06-27 04:00:00', '2017-06-27 05:00:00',
                   '2017-06-27 06:00:00'],
                  dtype='datetime64[ns]', freq='H')

常用的基礎頻率

別名	偏移量	說明
D/d	Day	每日曆日
B	BusinessDay	每工作日
H/h	Hour	每小時
T或min	Minute	每分
S	Secend	每秒
L或ms	Milli	每毫秒（每千分之一秒）
U	Micro	每微秒（即百萬分之一秒）
M	MonthEnd	每月最後一個日曆日
BM	BusinessDayEnd	每月最後一個工作

上表只展示了部分！

WOM日期（可獲得例如“每月第3個星期五”）

pd.date_range('2017-06-01','2017-07-31',freq='WOM-3FRI')

    DatetimeIndex(['2017-06-16', '2017-07-21'], dtype='datetime64[ns]', freq='WOM-3FRI')

重取樣及頻率轉換

降取樣：高頻資料到低頻資料

升取樣：低頻資料到高頻資料

主要函式：resample()（pandas物件都會有這個方法）

resample方法的引數

引數	說明
freq	表示重取樣頻率，例如‘M’、‘5min’，Second(15)
how=’mean’	用於產生聚合值的函式名或陣列函式，例如‘mean’、‘ohlc’、np.max等，預設是‘mean’，其他常用的值由：‘first’、‘last’、‘median’、‘max’、‘min’
axis=0	預設是縱軸，橫軸設定axis=1
fill_method = None	升取樣時如何插值，比如‘ffill’、‘bfill’等
closed = ‘right’	在降取樣時，各時間段的哪一段是閉合的，‘right’或‘left’，預設‘right’
label= ‘right’	在降取樣時，如何設定聚合值的標籤，例如，9：30-9：35會被標記成9：30還是9：35,預設9：35
loffset = None	面元標籤的時間校正值，比如‘-1s’或Second(-1)用於將聚合標籤調早1秒
limit=None	在向前或向後填充時，允許填充的最大時期數
kind = None	聚合到時期（‘period’）或時間戳（‘timestamp’），預設聚合到時間序列的索引型別
convention = None	當重取樣時期時，將低頻率轉換到高頻率所採用的約定（start或end）。預設‘end’

降取樣

需考慮：

1）各區間哪邊是閉合的（引數：closed）

2）如何標記各聚合面元，用區間的開頭還是末尾（引數：label）

ts_index = pd.date_range('2017-06-20',periods =12,freq = '1min')#一分鐘取樣資料

ts = pd.Series(np.arange(12),index = ts_index)

ts

    2017-06-20 00:00:00     0
    2017-06-20 00:01:00     1
    2017-06-20 00:02:00     2
    2017-06-20 00:03:00     3
    2017-06-20 00:04:00     4
    2017-06-20 00:05:00     5
    2017-06-20 00:06:00     6
    2017-06-20 00:07:00     7
    2017-06-20 00:08:00     8
    2017-06-20 00:09:00     9
    2017-06-20 00:10:00    10
    2017-06-20 00:11:00    11
    Freq: T, dtype: int32

聚合到5分鐘

ts.resample('5min',how='sum')

    C:\Program Files\anaconda\lib\site-packages\ipykernel\__main__.py:1: FutureWarning: how in .resample() is deprecated
    the new syntax is .resample(...).sum()
      if __name__ == '__main__':

    2017-06-20 00:00:00    10
    2017-06-20 00:05:00    35
    2017-06-20 00:10:00    21
    Freq: 5T, dtype: int32

ts.resample('5min',how='sum',closed='left')

    C:\Program Files\anaconda\lib\site-packages\ipykernel\__main__.py:1: FutureWarning: how in .resample() is deprecated
    the new syntax is .resample(...).sum()
      if __name__ == '__main__':

    2017-06-20 00:00:00    10
    2017-06-20 00:05:00    35
    2017-06-20 00:10:00    21
    Freq: 5T, dtype: int32

ts.resample('5min',how='sum',closed='left',label ='left')

    C:\Program Files\anaconda\lib\site-packages\ipykernel\__main__.py:1: FutureWarning: how in .resample() is deprecated
    the new syntax is .resample(...).sum()
      if __name__ == '__main__':

    2017-06-20 00:00:00    10
    2017-06-20 00:05:00    35
    2017-06-20 00:10:00    21
    Freq: 5T, dtype: int32

通過groupby進行重插樣

另外一種降取樣方法

ts1_index = pd.date_range('2017-6-01',periods = 100,freq = 'd')

ts1 = pd.Series(np.arange(100),index = ts1_index)
ts1.head()

    2017-06-01    0
    2017-06-02    1
    2017-06-03    2
    2017-06-04    3
    2017-06-05    4
    Freq: D, dtype: int32

ts1.groupby(lambda x:x.month).mean()

    6    14.5
    7    45.0
    8    76.0
    9    95.5
    dtype: float64

ts1.groupby(lambda x:x.weekday).mean()

    0    49.5
    1    50.5
    2    51.5
    3    49.0
    4    50.0
    5    47.5
    6    48.5
    dtype: float64

df1 = pd.DataFrame(np.arange(200).reshape(100,2),index = ts1_index)

df1.groupby(lambda x:x.weekday).mean()

0	1
0	99	100
1	101	102
2	103	104
3	98	99
4	100	101
5	95	96
6	97	98

對於具有時間序列索引的pandas資料結構，當groupby傳入一個函式時，可以對時間索引對應列進行聚合

升取樣

升取樣沒有聚合，但是需要填充

df2 = pd.DataFrame(np.arange(200).reshape(100,2),index = ts1_index,columns=['add1','add2'])
df2.head()

add1	add2
2017-06-01	0	1
2017-06-02	2	3
2017-06-03	4	5
2017-06-04	6	7
2017-06-05	8	9

df2.resample('W-THU',fill_method = 'ffill')

    C:\Program Files\anaconda\lib\site-packages\ipykernel\__main__.py:1: FutureWarning: fill_method is deprecated to .resample()
    the new syntax is .resample(...).ffill()
      if __name__ == '__main__':

add1	add2
2017-06-01	0	1
2017-06-08	14	15
2017-06-15	28	29
2017-06-22	42	43
2017-06-29	56	57
2017-07-06	70	71
2017-07-13	84	85
2017-07-20	98	99
2017-07-27	112	113
2017-08-03	126	127
2017-08-10	140	141
2017-08-17	154	155
2017-08-24	168	169
2017-08-31	182	183
2017-09-07	196	197
2017-09-14	198	199

總結

本篇部落格主要內容：

1）生成指定時間段，指定頻率的日期

2）對含有時間索引的pandas資料進行重取樣，包括降取樣和升取樣等。

python+pandas生成指定日期和重取樣

python 日期的範圍、頻率、重取樣以及頻率轉換 pandas有一整套的標準時間序列頻率以及用於重取樣、頻率推斷、生成固定頻率日期範圍的工具。生成指定日期範圍的範圍 pandas.date_range()用於生成指定長度的DatatimeIndex：

Python隨機生成指定長度字符串並保存到mysql中

python random 網上看到一個python練習題，要隨機生成8位數的優惠券，並希望能保存到mysql數據庫中。自己查資料寫了下面的一段代碼完成這個小作業#!/usr/bin/env python # -*- coding: utf-8 -*- #author qingmiao imp

python數據表的合並(python pandas join() 、merge()和concat()的用法)

div 等價 nta cti nio eve 數據合並 inner lai merage# pandas提供了一個類似於關系數據庫的連接(join)操作的方法<Strong>merage</Strong>,可以根據一個或多個鍵將不同DataFr

Xposed框架下實現支付寶微信生成指定金額和備註的二維碼連結

今年Xposed框架實現了重大進步免ROOT,任何手機都可以安裝,門檻大大降低.開發了幾年hook了,最近以學習為目的開發出實現了兩大支付軟體動態生成支付二維碼的關鍵技術開發工具:android studio3.1 環境:() Xposed框架版本0.16 支付寶版本10.

Python隨機生成指定長度字串

In [7]: import os

金字塔和重取樣的解析

金字塔的建立過程其實也就是一個重取樣的過程，這是最重要的一點。如果上面的部分都已經看過了，那麼如何在ArcMap中更好的渲染一個柵格資料你已經知道了。可僅展示好一個柵格資料是不夠的，我們還需要知道如何快速的展示一個柵格資料。講金字塔之前，先解釋一下重取樣的概念。

【python】獲取指定日期的後（前）一（n）天

開始在網上找到了，獲取今天，明天和前天日期的程式碼。 >>> import datetime #匯入日期時間模組 >>> today = datetime.date.today() #獲得今天的日期 >>> print

python pandas消除空值和空格的混淆

在人工採集資料時，經常有可能把空值和空格混在一起，一般也注意不到在本來為空的單元格里加入了空格。這就給做資料處理的人帶來了麻煩，因為空值和空格都是代表的無資料，而pandas中Series的方法notnull()會把有空格的資料也納入進來，這樣就不能完整地

python+pandas+時間、日期以及時間序列處理

先簡單的瞭解下日期和時間資料型別及工具 python標準庫包含於日期（date）和時間（time）資料的資料型別，datetime、time以及calendar模組會被經常用到。 datetime以毫秒形式儲存日期和時間，datetime.timedelta

python獲取當前的日期和時間

# coding=utf-8 import datetime import time print ("格式引數：") print (" %a 星期幾的簡寫") print (" %A 星期幾的全稱") print (" %b 月分的簡寫") print (" %B

如何生成指定均值和協方差矩陣的二維高斯分佈資料

廢話不多說，先貼程式碼。function y= main_generate_data()clcclear close all%%%%%%%%%%%%%%%%%%%%%%%%%生成實驗資料集rand('state',0)sigma_matrix1=eye(2);sigma_

python pandas消除空值和空格以及 Nan資料替換

python ---Pandas時間序列：生成指定範圍的日期

引入包 import pandas as pd import numpy as np 1.生成指定範圍的日期 print pd.date_range('11/1/2018','11/9/2018') 輸出： &n

python獲取指定日期的前N天日期和後N天日期

#encoding:utf-8from datetime import date, datetime, timedelta day = date.today()now = datetime.now()delta = timedelta(days=5)n_days_after = now + deltan_da

在一個範圍內隨機生成指定個數的不重復隨機數

set max random void class public ash logs pub public static void setRandom(int min, int max, int n, HashSet<Integer> set) {

Python自動化3.0-------學習之路------日期和時間！

unix dst python自動化相關 http -a 年份字符串 cti Python 日期和時間 Python 程序能用很多方式處理日期和時間，轉換日期格式是一個常見的功能。 Python 提供了一個 time 和 calendar 模塊可以用於格式化日期和時間。

4 Python 日期和時間

日期 doc 打印小數 -a windows cnblogs 更改常見　　Python 程序能用很多方式處理日期和時間，轉換日期格式是一個常見的功能。　　Python 提供了一個 time 和 calendar 模塊可以用於格式化日期和時間。　　時間間隔是以秒為單

python備份網站，並刪除指定日期文件

linu for mta led his times walk static sys #!/usr/bin/python# Filename: backup_ver1.pyimport osimport timeimport datetime# 1. The files a

Python 日期和時間

打印 1970年1月1日 san lock 開始 asc 當地時間運行 oca Python 程序能用很多方式處理日期和時間，轉換日期格式是一個常見的功能。 Python 提供了一個 time 和 calendar 模塊可以用於格式化日期和時間。時間間隔是以秒為單位的浮

python日期和時間

OS 某月 tick 日期和時間字符 AR port 打印 utf-8 time 模塊下有很多函數可以轉換常見日期格式。如函數time.time()用於獲取當前時間戳, 例: #!/usr/bin/python # -*- coding: UTF-8 -*- impo

python+pandas生成指定日期和重取樣

python 日期的範圍、頻率、重取樣以及頻率轉換

生成指定日期範圍的範圍

頻率和日期偏移量

常用的基礎頻率

WOM日期（可獲得例如“每月第3個星期五”）

重取樣及頻率轉換

resample方法的引數

降取樣

通過groupby進行重插樣

升取樣

總結

相關推薦