04】tsfresh：一種“提取時間序列特徵”的包

阿新 • • 發佈：2018-12-26

Install

假設你的PC已經裝了python開發環境：

## 使用pip直接安裝
pip install tsfresh

## 測試是否安裝成功
from tsfresh import extract_features

requests>=2.9.1
numpy>=1.10.4
pandas>=0.20.3
scipy>=0.17.0
statsmodels>=0.8.0  ## 基於 statsmodels 框架
patsy>=0.4.1
scikit-learn>=0.17.1
future>=0.16.0
six>=1.10.0
tqdm>=4.10.0
ipaddress>=1.0.18; python_version <= '2.7'
dask>=0.15.2
distributed>=1.18.3

基本步驟

準備資料：需要處理的時間序列資料，女裝專案就是時間與gmv的資料；
特徵提取：extract_features
特徵過濾：過濾掉沒有意義的值（NaN），保留有意義的特徵；降維；
特徵提取和過濾同時進行：extract_relevant_features(timeseries, y, column_id='id', column_sort='time')

案例

原始碼中的案例

https://github.com/blue-yonder/tsfresh/tree/master/notebooks

available tasks

time series classification
compression
forecasting

Time Series Forecasting - jupyter notebook

tsfresh.utilities.dataframe_functions.make_forecasting_frame(x, kind, max_timeshift, rolling_direction)

x (np.array or pd.Series) – the singular time series；歷史資料，
kind (str) – the kind of the time series；
max_timeshift (int)

– If not None, shift only up to max_timeshift. If None, shift as often as possible；
rolling_direction (int) – The sign decides, if to roll backwards (if sign is positive) or forwards in "time"；
Returns：time series container df, target vector y；

說明：df_shift, y = make_forecasting_frame(class_df_all['y'], kind="gmv", max_timeshift=24, rolling_direction=1)make_forecasting_frame() 函式的滑動過程如上圖所示，假如：len(class_df_all['y']) = 59，max_timeshift = 10。

(max_timeshift + 1)*(max_timeshift/2) + (len(y) - max_timeshift)*max_timeshift

當rolling_direction = 1，那麼返回的 df_shift 將是一個545行的組合資料，過程如下：

id = 1：feature_matrix, time = 0

id = 2：feature_matrix, time = 0，1，

id = 3：feature_matrix, time = 0，1，2

... ...

id = 10：feature_matrix, time = 0,1,2,3,4,5,6,7,8,9 ##

id = 11：feature_matrix, time = 0,1,2,3,4,5,6,7,8,9 ## 由於 max_timeshift =10，限制了最大長度為10

id = 12：feature_matrix, time = 0,1,2,3,4,5,6,7,8,9 ## 由於 max_timeshift =10，限制了最大長度為10

... ...

id = 58：feature_matrix, time = 0,1,2,3,4,5,6,7,8,9

所以：545 = (1+10)*10/2 + (59-10)*10

當 rolling_direction = -1 時，過程如下：

id = 1：feature_matrix, time = 0,1,2,3,4,5,6,7,8,9 ## 由於 max_timeshift =10，限制了最大長度為10

id = 2：feature_matrix, time = 0,1,2,3,4,5,6,7,8,9

id = 3：feature_matrix, time = 0,1,2,3,4,5,6,7,8,9

... ...

id = 57：feature_matrix, time = 0,1

id = 58：feature_matrix, time = 0

683·380

extract_features，特徵提取：根據上述滑動組合得到的 df_shift 資料，提取特徵：X = extract_features(df_shift, column_id="id", column_sort="time", column_value="value", impute_function=impute, show_warnings=False) ## 在 spyder 上無法work，而在 jupyter notebook 可以 work；
得到的特徵：[59 rows x 794 columns] --> 794 維的特徵，59行樣本數

（794維特徵，class ComprehensiveFCParameters）

extract_features 提取特徵的物件：

1）a pandas.DataFrame containing the different time series;

2）a dictionary of pandas.DataFrame each containing one type of time series;

extract_relevant_features：過濾掉部分特徵

思路問題

迴歸模型

輸入：特徵向量 - feature
輸出：預測值（迴歸值）
問題：gmv是目標值，如果資料僅僅是（ds，gmv），是否不適用迴歸模型？
分析：迴歸模型的輸入是特徵，如果需要預測未來2個月的gmv值，那麼需要知道未來2個月各自對應的特徵向量 feature，並將 feature 作為模型的輸入，得到對應的預測值。

Script - 20180717

import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import seaborn as sns

from tsfresh import extract_features
from tsfresh.utilities.dataframe_functions import make_forecasting_frame
from sklearn.ensemble import AdaBoostRegressor
from tsfresh.utilities.dataframe_functions import impute

import warnings
warnings.filterwarnings('ignore')

## load dateset

month_list = ["Jan","Feb","Mar","Apr","May","June",
              "July","Aug","Sept","Oct","Nov","Dec"]

all_leaf_class_name_dict = {cate_id: cate_name}

df = pd.read_csv('./cate_by_month_histroy.csv', header=0, encoding='gbk')
df.columns = ['ds', 'cate_id', 'cate_name', 'y']
class_df_all = df[df.cate_name.str.startswith(cate_name)].reset_index(drop=True)
class_df_all = class_df_all[['ds', 'y']]
class_df_all = class_df_all[:60]
# print(class_df_all.head())

## plot
fig = plt.figure(facecolor='white')
ax = fig.add_subplot(111)
ax.plot(class_df_all['ds'], class_df_all['y'])
for tick in ax.get_xticklabels():
    tick.set_rotation(90)
fig.set_size_inches(18, 8)
plt.legend()

## make_forecasting_frame
df_shift, y = make_forecasting_frame(class_df_all['y'], kind="gmv", max_timeshift=24, rolling_direction=1)
# print(df_shift)
# print(y)

## extract_features
X = extract_features(df_shift, column_id="id", column_sort="time", column_value="value", impute_function=impute, 
                     show_warnings=False)

## 迴歸模型
ada = AdaBoostRegressor()

y_pred = [0] * len(y)
# print(y_pred)
y_pred[0] = y.iloc[0]
# print(y_pred[0])

ada.fit(X.iloc[:], y[:])
y_pred = ada.predict(X.iloc[:])
print((X.iloc[:]).shape)
# for i in range(1, len(y)):
#     ada.fit(X.iloc[:i], y[:i])
#     # print(len(X.iloc[i, :]))
#     y_pred[i] = ada.predict(X.iloc[i, :])
    
y_pred = pd.Series(data=y_pred, index=y.index)

plt.figure(figsize=(15, 6))
plt.plot(y, label="true")
plt.plot(y_pred, label="predicted")
plt.legend()
plt.show()

問題彙總

ImportError: cannot import name 'is_list_like'：https://stackoverflow.com/questions/50394873/import-pandas-datareader-gives-importerror-cannot-import-name-is-list-like
extract_features：Anaconda-spyder 執行到 extract_features 命令時，跑不動（編譯器問題？），如下圖所示：
extract_features：使用 jupyter notebook 就能順利跑動，如下圖所示：

Reference

04】tsfresh：一種“提取時間序列特徵”的包

Install 假設你的PC已經裝了python開發環境： ## 使用pip直接安裝 pip install tsfresh ## 測試是否安裝成功 from tsfresh import extract_features requests>=2.9.1

你需要精通一種監控-時間序列資料庫

時間序列資料就是歷史烙印，具有不變性,、唯一性、時間排序性時間序列資料跟關係型資料庫有太多不同，但是很多公司並不想放棄關係型資料庫。於是就產生了一些特殊的用法，比如用 MySQL 的 VividCortex, 用 Postgres 的 Timescale。很多人覺得特

【模式識別與機器學習】——3.9勢函式法：一種確定性的非線性分類方法

目的　　用勢函式的概念來確定判別函式和劃分類別介面。基本思想　　假設要劃分屬於兩種類別ω1和ω2的模式樣本，這些樣本可看成是分佈在n維模式空間中的點xk。把屬於ω1的點比擬為某種能源點，在點上，電位達到峰值。隨著與該點距離的增大，電位分佈迅速減小，即把樣本xk附近空間x點上的電位分佈，看

【雷達與對抗】【2012.05】【含原始碼】合成孔徑雷達：一種用於ESAs Wavemill任務的實時處理器

本文為挪威奧斯陸大學（作者：GeirArild Byberg）的碩士論文，共91頁。 2004年，歐洲航天局提出了新的合成孔徑雷達任務（即Wavemill），將使用新技術測量海洋高度和海洋速度，測量精度提高到10釐米/秒。由於取樣率高，產生的資料量大，為了更有效地使用通訊鏈路，需要進行

【原始碼】NSGA - II：一種基於進化演算法的多目標優化函式

NSGA-II是一種著名的多目標優化演算法。 NSGA-II is a very famous multi-objective optimization algorithm. 相應的函式為nsga_2(pop,gen)。 The function is nsga_2(pop,g

從程式設計師視角和程式語言角度看【中醫】：一種生命健康程式語言

開篇，我們來問幾個問題，相信是個程式都知道：比如，0,1 代表什麼？比如，A,B，C，D,E 代表什麼？ 0，1是數值，是二進位制位； ABCDE是符號，可以作為變數。如果不懂，可以繼續看下面的虛擬碼： vA=""; vB=""; vC=""; vD=""; vE="";

【問底】伍藝：一種基於Rsync演算法的資料庫備份方案設計

根據容災備份系統對備份類別的要求程度，資料庫備份系統可以分為資料級備份和應用級備份。資料備份是指建立一個異地的資料備份系統，該系統是對原本地系統關鍵應用資料實時複製。當出現故障時，可由異地資料系統迅速恢復本地資料從而保證業務的連續性。應用級備份比資料備份層次更高，即在異地建

【譯】用SQL統一所有：一種有效的、語法慣用的流和表管理方法

現在還沒有一個統一的流式SQL語法標準，各家都在做自己的。本文在一些業界應用的基礎上提出了一個統一SQL語法的建議。Spark同樣

【並查集】一種與時間賽跑的巧妙演算法

**【並查集】一種與時間賽跑的巧妙演算法** # 引入：（NOIP模擬題）極端寒冬 **（不要求剛剛接觸並查集的讀者完全明白本題）** 先了解一下並查集是個什麼東西： **合併兩點所在集合** 和 **查詢兩點是否在同一集合** 的演算法那有什麼用處呢？我們先來看一道NOIP模擬題![在這裡插入圖片

分析比特幣網絡：一種去中心化、點對點的網絡架構

比特幣區塊鏈比特幣采用了基於互聯網的點對點（P2P：peer-to-peer）分布式網絡架構。比特幣網絡可以認為是按照比特幣P2P協議運行的一系列節點的集合。本文來分析下比特幣網絡，了解它跟傳統中心化網絡的區別，以及比特幣網絡是如何發現相鄰節點的。中心化網絡為了更好的理解P2P網絡，我們先來看看傳

機器不學習：一種提升預測能力的方法-機器學習模型

範圍和集最重要的機器免費現實良好的例子永恒機器不學習 jqbxx.com -機器學習好網站沒有哪個機器學習模型可以常勝，如何找到當前問題的最優解是一個永恒的問題。幸運的是，結合/融合/整合 (integration/ combinat

比特幣：一種點對點的電子現金系統

三方就是金融 pap tps 重新環境 coin 電子摘要：本文提出了一種完全通過點對點技術實現的電子現金系統，它使得在線支付能夠直接由一方發起並支付給另外一方，中間不需要通過任何的金融機構。雖然數字簽名部分解決了這個問題，但是如果仍然需要第三方的支

【部落格之星】分享是一種美德，年輕就該努力

首先感謝CSDN給我這次機會參加2013部落格之星候選人，記得兩年前剛開始在CSDN寫部落格的時候，那時候還擔心寫的東西太爛，被別人罵。現在想想當時的想法真是多餘的。兩年來，我從一個對程式設計幾乎算不上入門的傻小子，到現在能簡單的寫一些有用的程式碼。回往這兩年，真的感謝以前那個

[論文學習]An Effective Approach for Mining Mobile User Habits：一種高效挖掘移動使用者習慣的方法

原文： Cao H, Bao T, Yang Q, et al. An effective approach for mining mobile user habits[C]//Proceedings of the 19th ACM international confere

管理感悟：一種招聘考試的想法

　　招聘有很多種方法。面試加考試，應該是個好辦法。那麼，如何考試？吾設想了以下內容：電話的呼入、撥出功能設計。撥號鍵盤功能設計。數三角形。以前在中興培訓的時候數過。算角度。吾自己都忘記什麼意思了。緩衝、複用、繼承。加密解密介紹。　　大家可

測試計劃驅動開發模式 TPDD：一種比 TDD 更友好的開發模式

什麽是 mha peewee 驅動開發生產 datetime person 分開參與　　相信大部分開發團隊都在使用TDD，並且還有很多開發團隊都對外聲明在使用 TDD 開發模式。　　　　之所以說是“對外聲明”，是因為很多開發團隊雖然號稱使用的是 TDD 開發模式，

Galera Cluster ：一種新型的高一致性MySql叢集框架

Galera Cluster是Codership公司開發的一套免費開源的高可用方案，官網為http://galeracluster.com。Galera Cluster即為安裝了Galera的Mariadb叢集（本文只介紹Mariadb Garela叢集）。其本身具有multi-master特性，支

Citco推出CitcoConnect：一種針對安全資料共享和數字投資的全新獨立解決方案

紐約--(美國商業資訊)--金融服務行業全球領先的服務提供商Citco Group of Companies (“Citco”)今天宣佈推出CitcoConnect，這一全新的數字解決方案用於自動化和簡化對潛在投資者的管理流程，包括一個對另類基金進行初始投資的線上工具。該

NeuralTalk：一種基於Python+numpy使用語句描述影象的多模態遞迴神經網路的例程

NeuralTalk工程的流程如下： The pipeline for the project looks as follows: 輸入資料使用Amazon Mechanical Turk收集的影象和5組語句描述的資料集。 The input is a dataset of im

OCTMAP：一種基於八叉樹的高效概率三維對映框架

摘要三維模型提供了空間的體積表示，這對於包括飛行機器人和裝有機械手的機器人在內的各種機器人應用非常重要。在本文中，我們提出了一個開源框架來生成體積3D環境模型。我們的對映方法基於八叉樹，使用概率佔用估計。它明確地表示不僅佔用的空間，而且自由和未知的區域。此外，我們提出一種八叉樹地圖壓縮方法，以保持

04】tsfresh：一種“提取時間序列特徵”的包

Install

基本步驟

案例

原始碼中的案例

available tasks

Time Series Forecasting - jupyter notebook

思路問題

迴歸模型

Script - 20180717

問題彙總

Reference

相關推薦