時間序列實戰（一）

阿新 • • 發佈：2018-12-24

匯入資料，並轉化為時間序列

#coding:utf-8
import numpy as np
import pandas as pd
from datetime import datetime
import matplotlib.pylab as plt
plt.rcParams['font.sans-serif']=['SimHei']
from matplotlib.pylab import rcParams
from statsmodels.tsa.stattools import adfuller

dateparse = lambda dates: pd.datetime.strptime(dates, '%Y/%m/%d' 
)
data = pd.read_csv('mian.csv', parse_dates='date', index_col='date',date_parser=dateparse)

rcParams['figure.figsize'] = 10, 5
ts = data['out'] 
ts.tail()

平穩性檢測

方法一：時序圖

from pylab import *
plt.plot(ts)
plt.title(u'當天出庫')
show()

輸出：
這裡寫圖片描述

序列始終在一個常數值附近隨機波動，且波動範圍有界，且沒有明顯的趨勢性或週期性，所以可認為是平穩序列。

方法二：自相關圖

from statsmodels.graphics.tsaplots import plot_pacf,plot_acf
plot_acf(ts)
show()

輸出：
這裡寫圖片描述

自相關係數會很快衰減向0，所以可認為是平穩序列。

方法三：ADF單位根檢驗（精確判斷）

temp = np.array(ts)
t = sm.tsa.stattools.adfuller(temp)  # ADF檢驗
output=pd.DataFrame(index=['Test Statistic Value', "p-value", "Lags Used", "Number of Observations Used","Critical Value(1%)","Critical Value(5%)","Critical Value(10%)"],columns=['value'])
output['value' 
]['Test Statistic Value'] = t[0]
output['value']['p-value'] = t[1]
output['value']['Lags Used'] = t[2]
output['value']['Number of Observations Used'] = t[3]
output['value']['Critical Value(1%)'] = t[4]['1%']
output['value']['Critical Value(5%)'] = t[4]['5%']
output['value']['Critical Value(10%)'] = t[4]['10%']
output

輸出：
這裡寫圖片描述

單位根檢驗統計量對應的P值遠小於0.05，故該序列可確認為平穩序列。

純隨機性檢驗（白噪聲檢驗）

from statsmodels.stats.diagnostic import acorr_ljungbox
print u'序列的純隨機性檢測結果為：',acorr_ljungbox(ts,lags = 1)

輸出：

序列的純隨機性檢測結果為： (array([ 9.10802245]), array([ 0.00254491]))

P=0.00254491，統計量的P值小於顯著性水平0.05，則可以以95%的置信水平拒絕原假設，認為序列為非白噪聲序列（否則，接受原假設，認為序列為純隨機序列。）

綜上：原序列為平穩非白噪聲序列，適用於ARMA模型。

識別ARMA模型階次

方法一：ACF、PACF 判斷模型階次

from statsmodels.graphics.tsaplots import plot_pacf,plot_acf
plot_acf(ts)
plot_pacf(ts)
show()

輸出：
這裡寫圖片描述

可以看出，模型的階次應該為(200,400)，階數高，計算量過大。採用另外一種方法確定階數。

方法二：資訊準則定階
目前選擇模型常用如下準則：（其中L為似然函式，k為引數數量，n為觀察數）
AIC = -2 ln(L) + 2 k 中文名字：赤池資訊量 akaike information criterion
BIC = -2 ln(L) + ln(n)*k 中文名字：貝葉斯資訊量 bayesian information criterion
HQ = -2 ln(L) + ln(ln(n))*k hannan-quinn criterion
我們常用的是AIC準則，同時需要儘量避免出現過擬合的情況。所以優先考慮的模型應是AIC值最小的那一個模型。

為了控制計算量，在此限制AR最大階不超過6，MA最大階不超過4。但是這樣帶來的壞處是可能為區域性最優。

import statsmodels.api as sm
sm.tsa.arma_order_select_ic(ts,max_ar=6,max_ma=4,ic='aic')['aic_min_order']  # AIC

輸出：

(3, 2)

sm.tsa.arma_order_select_ic(ts,max_ar=6,max_ma=4,ic='bic')['bic_min_order']  # BIC

輸出：

(1, 0)

sm.tsa.arma_order_select_ic(ts,max_ar=6,max_ma=4,ic='hqic')['hqic_min_order'] # HQIC

輸出：

(3, 2)

AIC求解的模型階次為(3,2)
BIC求解的模型階次為（1,0）
HQIC求解的模型階次為（3,2）
這裡就以AIC準則為準，選擇（3,2），也可依次嘗試每一種準則，選擇最優。

模型的建立及預測

上一步驟已確定了ARMA模型的階數為（3,2），接下來進行模型的建立和預測工作。將原資料分為訓練集和測試集，選擇最後10個數據用於預測。

order = (3,2)
train = ts[:-10]
test = ts[-10:]
tempModel = sm.tsa.ARMA(train,order).fit()
#tempModel.summary2()給出一份模型報告

輸出：
這裡寫圖片描述

接下來預測最後10天的資料：

tempModel.forecast(10)

輸出：

(array([  5.29077389,   3.45200299,   4.61117218,   6.3501017 ,
          8.20994055,   9.98513142,  11.51878938,  12.68732223,
         13.40622711,  13.6351102 ]),
 array([ 23.03022024,  23.10739399,  23.12377736,  23.15402121,
         23.17973782,  23.19614362,  23.20345806,  23.20486727,
         23.20499493,  23.20820176]),
 array([[-39.84762834,  50.42917612],
        [-41.837657  ,  48.74166298],
        [-40.71059863,  49.93294299],
        [-39.03094596,  51.73114937],
        [-37.22151076,  53.64139185],
        [-35.47847465,  55.4487375 ],
        [-33.95915273,  56.99673149],
        [-32.79338188,  58.16802634],
        [-32.07472721,  58.88718143],
        [-31.85212939,  59.12234979]]))

最後10天的預測資料為：
5.29077389, 3.45200299, 4.61117218, 6.3501017 ,8.20994055,
9.98513142, 11.51878938, 12.68732223,13.40622711, 13.6351102

擬合效果：

delta = tempModel.fittedvalues - train
score = 1 - delta.var()/train.var()
print score

輸出：

0.0353600467617

擬合效果遠小於1，可見效果不好。。。

predicts = tempModel.predict('2016/4/21', '2016/4/30', dynamic=True)
print len(predicts)
comp = pd.DataFrame()
comp['original'] = test
comp['predict'] = predicts
comp.plot()

效果圖：
這裡寫圖片描述

至此，整個流程結束。但是，擬合效果並不好。

總結

導致擬合效果欠佳的原因可能有：

使用資料為原始資料，未加任何預處理（主要原因）。原始資料中存在著異常值、不一致、缺失值，嚴重影響了建模的執行效率，造成較大偏差。；
在模型定階過程中，為了控制計算量，限制AR最大階不超過6，MA最大階不超過4，從了影響了引數的確定，導致區域性最優。

接下來會從這兩個方面考慮，改進並完善結果。

時間序列實戰（一）

匯入資料，並轉化為時間序列 #coding:utf-8 import numpy as np import pandas as pd from datetime import datetime import matplotlib.pylab as plt

簡介量化金融中使用的時間序列模型（一）

在計量經濟學領域中，我們主要研究三種資料，即橫截面資料、面板資料和時間序列資料。其中橫截面資料研究在一個給定的時間點上，不同觀測樣本的狀態，例如：2016年12月16日全國各個城市天氣質量AQI指數。面板資料指的是某些給定的樣本在給定的時間跨度內的觀測值。例如：201

時間序列預測（一）數據的一些處理方法

sub pycha 預測 ria rom pla char day png 一、滑動平均公式（窗口為7）：也就是說7個數做一次平均二、指數平均公式：其中因此也就是說離本點越近，考慮的權重也越大。 python cod

OpenCV-Python實戰（一）Ubuntu18.04實現人臉檢測+輸出抓圖時間

參考：python+opencv計算程式碼執行時間：time庫和opencv自帶方法getTickCount cv2級聯分類器CascadeClassifier 一、Haar特徵分類器介紹 Haar特徵分類器就是一個XML檔案，該檔案中會描述人體各個部位的Haar特徵值。包括人

Spring 事務配置實戰（一）：過濾無需事務處理的查詢之類操作

log pla ssi pan spl tail gif aop img <tx:advice id="txAdvice" transaction-manager="transactionManager"> <tx:attributes

RabbitMq 實戰（一）

rabbitmq spring boot （消費者處理消息）RabbitMq消息消費者服務開發工具Idea和Spring boot來開發的。消息消費目前只是一個簡單的Demo，後續會處理成更智能一些。首先配置文件類，RabbitMqConfig，裏面配置一些用戶名和密碼嗨喲隊列信息。package com.

Wicket實戰（一）概述

rac span 下載本質 jsf xtend 公式 href tar 今天給大家介紹一個很好的東西。一個被稱作Java平臺上的ASP.NET——Wicket。什麽是Wicket 什麽是Wicket，假設你用谷歌或其它

Linux系統集群架構線上項目配置實戰（一）

linux 項目實戰 Linux系統集群架構線上項目配置實戰（一）本文出自 “民工哥博客” 博客，請務必保留此出處http://mingongge.blog.51cto.com/2429897/1971210Linux系統集群架構線上項目配置實戰（一）

機器學習實戰（一）—— 用線性回歸預測波士頓房價

-1 png 機器學習 mage 回歸線性回歸 blog 分享機器機器學習實戰（一）—— 用線性回歸預測波士頓房價

全棧性能測試修煉寶典--Jmeter實戰（一）

div 測試用例 ceo 上下文切換知識能力熱點 mongo rac 性能測試方向職業發展 1、軟件測試發展路線　　我們可以暫且把軟件測試職業路線分為3個方向，分別是業務路線、技術路線、管理路線；4個象限，分別為執行層、中層、中高層過渡、高層。　　（1）業務路線

mmall 項目實戰（一）項目初始化

ant log 初始 post gpo using base inno ole 1.創建數據庫及表數據腳本： /* Navicat Premium Data Transfer Source Server : 182.92.82.1

Docker從入門到實戰（一）

roc serve net lin 軟件系統調用生命 etc before 一步一步走，寫小白都能看懂的文章，將持續更新中，敬請期待！ Docker從入門到實戰（一）一：容器技術與Docker概念 1 什麽是容器容器技術並不是一個全新的概念，它又稱為容器虛擬化。虛擬

MySQL數據庫從入門到實戰（一）

DBA體系 mysql 非關系型數據庫 SQL優化第一部分：了解DBA體系一、初級DBA應該掌握哪些技能？（運維人員必會知識）1.MySQL安裝部署2.基本參數配置3.備份策略設計與實現二、中級DBA應該掌握哪些技能？1.故障處理能力（備份或者其他手段）2.MySQL監控能力3.基本優化能

自動化運維工具Ansible實戰（一）簡介和部署

Ansible 自動化運維一、Ansible的介紹 Ansible是新出現的自動化運維工具，基於Python開發，集合了眾多運維工具（puppet、cfengine、chef、func、fabric）的優點。實現了批量系統配置、批量程序部署、批量運行命令等功能。Ansible是基於模塊工作的，本身沒

Android項目實戰（一）： SpannableString與SpannableStringBuilder

append() 同時 uil 註意 1.5 查看 strong 尊重 bject 原文:Android項目實戰（一）： SpannableString與SpannableStringBuilder前言：曾經在一些APP中的一些類似“幫助”&ld

xml序列化和反序列化（一）

哈哈正則表達式 eof AD regex lan value sys 註意最近項目中需要調用第三方webservice，入參和出參采用xml格式，大致如下：入參： <?xml version="1.0" encoding="utf-8"?> <

Laravel 完整實戰（一） —— 搭建及配置

laravel composer 實戰環境： nginx + php + mysql laravel : 5.5開發環境的搭建略過安裝 laravel composer create-project laravel/laravel [project-name] --prefer-dist

Spark實戰（一）SparkStreaming集成Kafka

round 形式寫入 some base cal 接下來會話支持 Spark Streaming + Kafka集成指南 Kafka項目在版本0.8和0.10之間引入了一個新的消費者API，因此有兩個獨立的相應Spark Streaming包可用。請選擇正確的包，

時間序列模式（ARIMA）---Python實現

dia 就會 ast 的確 ram 依次 play 銷售 ati 時間序列分析的主要目的是根據已有的歷史數據對未來進行預測。如餐飲銷售預測可以看做是基於時間序列的短期數據預測，預測的對象時具體菜品的銷售量。 1.時間序列算法：常見的時間序列模型; ?

Docker基礎入門實戰（一）

art The 開機自啟動 inf 應用程序 51cto 管理 x86 正在 Docker基礎入門實戰第1章 docker簡介1.1 what is DockerDocker是一個開源的應用容器引擎，基於Go語言並遵從Apache2.0協議開源，源代碼部

時間序列實戰（一）

匯入資料，並轉化為時間序列

平穩性檢測

純隨機性檢驗（白噪聲檢驗）

識別ARMA模型階次

模型的建立及預測

總結

相關推薦