時間序列預測入（二）

阿新 • • 發佈：2019-03-25

model left concat mean nal med 分享 color taf

ARIMA預測

# -*- coding: utf-8 -*-
"""
Created on Fri Mar 22 21:03:34 2019

@author: Administrator
"""
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime
from datetime import timedelta

num = 14
filenames = []
basepath = ‘D:\\pworkspace\\data\\Metro_train\\ 
‘
for i in range(1, num+1):
    if i < 10:
        filenames.append(basepath + ‘record_2019-01-0‘ + str(i) + ‘.csv‘)
    else:
        filenames.append(basepath + ‘record_2019-01-‘ + str(i) + ‘.csv‘)

flag = True      
for filename in filenames:
    df = pd.read_csv(filename)
    df[‘time‘] = df[‘ 
time‘].str[:-4] + ‘0:00‘
    df[‘time‘] = pd.to_datetime(df[‘time‘])
    df0 = df[df[‘stationID‘] == 0].copy()
    del df
    user_in = df0[df0[‘status‘] == 1]
    user_out = df0[df0[‘status‘] == 0]
    user_in = user_in.groupby(‘time‘)
    user_out = user_out.groupby(‘time‘)
    user_in = user_in.count()
    user_out  
= user_out.count()
    user_in[‘count‘] = user_in[‘userID‘]
    user_out[‘count‘] = user_out[‘userID‘]
    user_in = user_in.drop([‘lineID‘, ‘stationID‘, ‘deviceID‘,
                            ‘status‘, ‘payType‘, ‘userID‘], axis=1)
    user_out = user_out.drop([‘lineID‘, ‘stationID‘, ‘deviceID‘,
                            ‘status‘, ‘payType‘, ‘userID‘], axis=1)
    if flag:
        user_in_all = user_in
        #user_out_all = user_out
        flag = False
    else:
        user_in_all = pd.concat([user_in_all,user_in], axis=0)
        #user_out_all = pd.concat([user_out_all,user_out], axis=0)
        

#start = datetime(2019,1,1,0,0,0)
#timelist = [ str(start + timedelta(seconds=600*i)) for i in range(24 * 6 * 2)]

startdate = datetime(2019,1,1,0,0,0)
enddate = startdate + timedelta(days=num-1, minutes=50, hours=23)

all_time_data = pd.DataFrame({‘time‘ : pd.date_range(start=str(startdate), 
                               end=str(enddate),  freq=‘10T‘)})
all_time_data[‘count‘] = 0
all_time_data.index = all_time_data[‘time‘]
all_time_data = all_time_data.drop(‘time‘, axis=1)

user_in_all = pd.merge(all_time_data, user_in_all, right_on=‘time‘, 
         left_index=True, how=‘outer‘)
user_in_all[np.isnan(user_in_all[‘count_y‘])] = 0
user_in_all[‘count_x‘] = user_in_all[‘count_x‘] + user_in_all[‘count_y‘]

user_in_all[‘count‘] = user_in_all[‘count_x‘]
user_in_all = user_in_all.drop([‘count_x‘, ‘count_y‘], axis=1)
user_in_all.plot(figsize=(15,8))
plt.show()

ts = user_in_all[‘count‘]
ts_ewma = pd.DataFrame(ts).ewm(span=60).mean()
ts_ewma.plot(figsize=(15,8))
plt.show()

from statsmodels.tsa.stattools import acf, pacf, adfuller
from statsmodels.stats.diagnostic import acorr_ljungbox
from statsmodels.tsa.arima_model import ARIMA
#import statsmodels.api as sm

ts_diff_1 = ts_ewma.diff(1).dropna(axis=0, how=‘any‘)
ts_diff_1 = ts_diff_1[‘count‘]

# ADF平穩性檢驗
adfuller(ts_diff_1, autolag=‘AIC‘)
# 白噪聲檢驗
acorr_ljungbox(ts_diff_1, 1)
# ACF PACF
lag_acf = acf(ts_diff_1, nlags=50)
lag_pacf = pacf(ts_diff_1, nlags=50)
plt.figure(facecolor=‘white‘, figsize=(15, 8))
plt.plot(lag_acf)
plt.show()
plt.figure(facecolor=‘white‘, figsize=(15, 8))
plt.plot(lag_pacf)
plt.axhline(y=-1.9/np.sqrt(len(ts_diff_1)), linestyle=‘--‘, color=‘gray‘)
plt.axhline(y=1.9/np.sqrt(len(ts_diff_1)), linestyle=‘--‘, color=‘gray‘)
plt.show()

model = ARIMA(ts_diff_1, order=(6, 0, 0))
ts_predict = model.fit().predict()
rmse = np.sqrt(sum((ts_predict - ts_diff_1)**2) / ts_diff_1.size)

plt.figure(facecolor=‘white‘, figsize=(15, 8))
plt.plot(ts_predict, lw=0.5, color=‘blue‘, label=‘Predict‘)
plt.plot(ts_diff_1, lw=0.5, color=‘red‘, label=‘Original‘)
plt.legend(loc=‘lower right‘)
#plt.ylim((-1000, 1000))
plt.show()

運行結果

技術分享圖片

? 技術分享圖片

技術分享圖片

時間序列預測入（二）

model left concat mean nal med 分享 color taf ARIMA預測 # -*- coding: utf-8 -*- """ Created on Fri Mar 22 21:03:34 2019 @author: Admi

Sqlserver時間函數用法（二）

num 系統一段 con -1 時間格式第一天 server () --1. 當前系統日期、時間 select getdate() --2015-01-06 09:27:27.277 --2.時間操作 dateadd 在向指定日期加上一段時間的基礎上，返回新的 dat

【安全牛學習筆記】SQLMAP自動註入（二）

信息安全 security+ SQLMAP自動註入（二）-REQUEST和SQLMAP自動註入（三）-OPTIMIZATIONSQLMAP自動註入02-----REQUEST--delay 每次http(s)請求之間延遲時間，浮點數，單位為秒,默認無延遲--timeout 請求超時時間，

Java 系列之spring學習--依賴註入（二）

ssp app odin throw 函數 ans 圖片 .com 配置一、依賴註入的三種方式　　接口註入，set註入，構造函數註入二、構造函數註入　　2.1、測試類 package test; public class test01 { public St

使用Centos下的iptables實現實驗室按教室、按時間進行上網控制（二）

上網控制 Linux防火墻 IPTABLES 高校運維 1.input鏈策略。input文件; #loopbackiptables -A INPUT -i lo -j ACCEPT #DOS防護iptables -A INPUT -i eth0 -p tcp --syn -m connlim

SQL一般註入（二）

current csrf 註入 ascii ati cookie ble true () mysql一般註入(二) 1.mysql一般註入(insert、update) mysql一般請求mysql_query不支持多語句執行，mysqli可以。　　inse

時間序列完全教程（R）

簡介在商業應用中，時間是最重要的因素，能夠提升成功率。然而絕大多數公司很難跟上時間的腳步。但是隨著技術的發展，出現了很多有效的方法，能夠讓我們預測未來。不要擔心，本文並不會討論時間機器，討論的都是很實用的東西。本文將要討論關於預測的方法。有一種預測是跟時間相

十大經典預測演算法（二）----邏輯迴歸

一、邏輯迴歸概念　　線性迴歸可以擬合X與Y之間的關係，但迴歸模型中Y值是連續的，如果換成一個二分類標籤，Y只能取兩個值0、1，這時候就不能用線性迴歸了，這樣就有了邏輯迴歸。　　針對Y的值域在區間[0-1]的問題，我們不能尋找到一條完美曲線，用於擬合二分類模型，但我們可以尋找一條完美的S型曲線，S型曲線

R語言與時間序列學習筆記（1）

今天分享的是R語言中時間序列的有關內容。主要有：時間序列的建立，ARMA模型的建立與自相關和偏自相關函式。一、時間序列的建立時間序列的建立函式為：ts().函式的引數列表如下： ts(data = NA, start = 1, end

《暗時間》讀書筆記（二）

第一篇暗時間這一篇主要講了如何更好地利用時間，運用很多例子來支撐觀點。還用自己的經歷作為例子展現給讀者，不禁讓人佩服，相比之下覺得大學過得很慚愧。想起朋友的一句話：看到XXX後，發現原來我一直都在浪費糧食。過早退出是一切失敗的根源。——高德納興趣遍地都是，專注和持

利用ARIMA進行時間序列資料分析（Python）

0 導讀閱讀本文需要有掌握基本的ARIMA知識，倘若ARIMA相關內容已經遺忘，此處提供以下博文幫你回憶一下：本文主要分為四個部分：用pandas處理時序資料檢驗序資料的穩定性處理時序資料變成穩定資料時序資料的預測和許多時間序列分析一樣，本文同樣使

R語言與時間序列學習筆記（2）

ARMA模型的引數估計方法 ARMA引數估計和前面我們介紹的點估計內容相似，也介紹矩估計與最小二乘估計兩種方法。和上一次的點估計一樣，這一次我分享的內容主要有：矩估計，最小二乘估計，一個應用例題關

網路流量預測入門（二）之LSTM介紹

[TOC] # 網路流量預測入門（二）之LSTM介紹這篇blog大家就隨便看一下吧，基本上是參照[RNN模型與NLP應用(4/9)：LSTM模型](https://www.youtube.com/watch?v=vTouAvxlphc&t=48s&ab_channel=ShusenWang)這個是v

Tensorflow構建RNN做時間序列預測（二）

batch_size = 32 epoch=30 batch=len(X)//batch_size saver = tf.train.Saver(tf.global_variables()) with tf.Session() as sess: sess.run(tf.global_variable

基於Keras的LSTM多變數時間序列預測（學習筆記）

本文翻譯自Jason Brownlee的部落格https://machinelearningmastery.com/multivariate-time-series-forecasting-lstms-keras/ 本部落格主要參考以下中文版部落格 https://blog.csdn.net/qq_280