【機器學習】時序資料處理

阿新 • • 發佈：2018-12-26

相關參考文獻：

1.時間序列交叉驗證

2.機器學習與時間序列預測

3.時序資料預測案例： O2O Coupon Usage Forecast

4.時間序列模型中樣本時間視窗的選擇-華泰期貨

5.scikit-learn交叉驗證時間序列資料的自定義拆分

6.Feature Selection for Time Series Forecasting with Python

一、背景

最近在做專案的時候，出現這樣的情況：模型在隨機劃分的測試集上表現很好，卻在按月劃分的測試集上表現極其差；

分析發現樣本集具有時序性，在模型訓練時未將時間因素考慮在內，導致模型泛化能力差；基於此，調整模型調參時的交叉驗證方式，由系統隨機劃分改為自定義按月劃分

。

二、自定義交叉驗證資料集

具體Python程式碼如下：

1.自定義交叉驗證劃分規則：

# 自定義交叉驗證（月）
def data2lst(lst):
    ret = []
    for i in lst:
        ret += i
    return ret

def createCv(x_train_month, x_train, y_train, n):
    groups = x_train.groupby(x_train_month).groups
    sorted_groups = [value.tolist() for (key, value) in sorted(groups.items())]
    cv = [(np.array(data2lst(sorted_groups[i:i+n])), np.array(sorted_groups[i+n])) for i in range(len(sorted_groups)-n)]
    return cv

2.測試

# 隨機生成測試資料
import pandas as pd
import numpy as np
x_train = pd.DataFrame(list(range(100)), columns=['col0'])
y_train = pd.DataFrame([np.random.randint(0, 2) for i in range(100)], columns=['y'])
x_train_month = ['2018-01']*20 + ['2018-02']*20 + ['2018-03']*20 + ['2018-04']*20 + ['2018-05']*20

# 3個月訓練，1個月驗證    
n = 3
cv = createCv(x_train_month, x_train, y_train, n)  # 返回x_train的index
print(len(cv))
print(cv)

# 搭配GridSearchCV使用
param_test = {'max_depth': list(range(5,12,2))}
gsearch1 = GridSearchCV(
        estimator=XGBClassifier()
        , param_grid = param_test
        , cv=cv)

三、結果

1.能有效解決過擬合現象；

2.在測試集上的效果稍有提升；

3.某種程度上提升模型訓練效率；

【機器學習】時序資料處理

相關參考文獻： 1.時間序列交叉驗證 2.機器學習與時間序列預測 3.時序資料預測案例： O2O Coupon Usage Forecast 4.時間序列模型中樣本時間視窗的選擇-華泰期貨 5.scikit-learn交叉驗證時間序列資料的自定義拆分 6.Featu

【機器學習】鳶尾花資料探索

# 匯入必要的處理包 from pandas import read_csv from pandas.plotting import scatter_matrix from matplotlib import pyplot from sklearn.model_selection imp

【機器學習】文字資料的向量化(TF-IDF)---樣本集例項講解+python實現

1.文字資料的向量化1.1名詞解釋CF：文件集的頻率，是指詞在文件集中出現的次數DF：文件頻率，是指出現詞的文件數IDF：逆文件頻率，idf = log(N/(1+df))，N為所有文件的數目，為了相容df=0情況，將分母弄成1+df。TF：詞在文件中的頻率TF-IDF：TF

【機器學習】迴歸案例實踐：資料處理建模調參

# -*- coding: utf-8 -*- """迴歸問題案例.ipynb Automatically generated by Colaboratory. Original file is located at https://colab.research.google

【機器學習】模型訓練前夜—資料集預處理（概念+圖+實戰）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。缺失資料處理： # 顯示資料的缺失值 import pandas as pd from io import StringIO csv_data = '''A,B,C,D 1.0,2.0,3

【機器學習】數據預處理之將類別數據轉換為數值

行數據 pri and slab form ces nbsp 遍歷 encode 在進行python數據分析的時候，首先要進行數據預處理。有時候不得不處理一些非數值類別的數據，嗯，今天要說的就是面對這些數據該如何處理。目前了解到的大概有三種方法： 1，通過LabelE

【機器學習】在分類中如何處理訓練集中不平衡問題

原文地址：一隻鳥的天空，http://blog.csdn.net/heyongluoyao8/article/details/49408131 在分類中如何處理訓練集中不平衡問題在很多機器學習任務中，訓練集中可能會存在某個或某些類別下的樣本數遠大於另一些類別下的樣本數目。即類別不平衡，為了

【機器學習】資料分析王者 CatBoost vs. Light GBM vs. XGBoost

機器學習領域的一個特點就是日新月異，在資料競賽中，一件趁手的工具對比賽結果有重要影響。boosting是一種將弱分類器組合成強分類器的方法，它包含多種演算法，如GDBT、AdaBoost、XGBoost等等。如果你參加過Kaggle之類的資料競賽，你可能聽說過XGBoost在

【機器學習】資料探勘演算法——關聯規則（一），相關概念，評價指標

綜述：資料探勘是指以某種方式分析資料來源，從中發現一些潛在的有用的資訊，所以資料探勘又稱作知識發現，而關聯規則挖掘則是資料探勘中的一個很重要的課題，顧名思義，它是從資料背後發現事物之間可能存在的關聯或者聯絡。關聯規則的目的在於在一個數據集中找出項之間的關

【機器學習】資料探勘演算法——關聯規則（二），挖掘過程，Aprioir演算法

關聯規則挖掘的原理和過程從關聯規則（一）的分析中可知，關聯規則挖掘是從事務集合中挖掘出這樣的關聯規則：它的支援度和置信度大於最低閾值（minsup,minconf），這個閾值是由使用者指定的。根據 support=(X,Y).count/T.countsupp

【機器學習】加州理工學院公開課——機器學習與資料探勘 1.學習問題

一、概念形式化輸入：x 輸出：y 目標函式：F：x → y 資料：(x1, y1), (x2, y2), …, (xN, yN) 假設函式：g：x → y 假設集：H={h}， G∈H （假設集有助於理解是否用這個演算法及用這個演

【機器學習】特徵工程多特徵值序列化數值化獨熱編碼處理(LabelEncoder, pd.factorize())

多特徵值序列化數值化獨熱編碼處理當我們在運用某些模型時，比如在Scikit-learn中，它要求資料都得是numberic（數值型），若是文字型別就無法進行訓練。那麼在這種情況下，我們就應該先對資料進行序列化數值化：下面是幾種在Python中數值化的方法： 1

【機器學習】資料降維—主成分分析（PCA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。主成分分析（PCA）特徵抽取通常用於提高計算效率，降低維度災難。主成分分析（Principe component analysis，PCA）：是一種廣泛應用於不同領域的無監督

【機器學習】資料降維—線性判別分析（LDA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。線性判別分析（Linear Discriminant Analysis,LDA）是一種可作為特徵抽取的技術 LDA可以提

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

img eas 一個 increase 裏的 sum 示例增加機器在得出random forest 模型後，評估參數重要性 importance（）示例如下特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量比如 X1

【機器學習】主成分分析PCA（Principal components analysis）

大小限制總結情況 pca 空間會有 ges nal 1. 問題真實的訓練數據總是存在各種各樣的問題：　　1、比如拿到一個汽車的樣本，裏面既有以“千米/每小時”度量的最大速度特征，也有“英裏/小時”的最大速度特征，

【機器學習】1 監督學習應用與梯度下降

例如 tla ges 機器 fprintf lns 找到輸入 style 監督學習簡單來說監督學習模型如圖所示其中 x是輸入變量又叫特征向量 y是輸出變量又叫目標向量通常的我們用（x,y）表示一個樣本而第i個樣本用（x（i），y（i））表示 h是輸出函

【機器學習】EM的算法

log mea www 優化問題 get href ive 路線 EM的算法流程：初始化分布參數θ；重復以下步驟直到收斂： E步驟：根據參數初始值或上一次叠代的模型參數來計算出隱性變量的後驗概率，其實就是隱性變量的期望。作為隱藏變量的

【機器學習】DBSCAN Algorithms基於密度的聚類算法

多次使用缺點有效結束基於需要 att 共享一、算法思想： DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基於密度的聚

【機器學習】對梯度下降算法的進一步理解

獨立 com 線性回歸執行 ont 執行過程 wid 簡單的技術單一變量的線性回歸讓我們依然以房屋為例，如果輸入的樣本特征是房子的尺寸，我們需要研究房屋尺寸和房屋價格之間的關系，假設我們的回歸模型訓練集如下其中我們用 m表示訓練集實例中的實例數量， x代表特

【機器學習】時序資料處理

相關推薦