Python對商店資料進行lstm和xgboost銷售量時間序列建模預測分析

阿新 • • 發佈：2020-11-13

原文連結：http://tecdat.cn/?p=17748

在資料科學學習之旅中，我經常處理日常工作中的時間序列資料集，並據此做出預測。

我將通過以下步驟：

探索性資料分析（EDA）

問題定義（我們要解決什麼）
變數識別（我們擁有什麼資料）
單變數分析（瞭解資料集中的每個欄位）
多元分析（瞭解不同領域和目標之間的相互作用）
缺失值處理
離群值處理
變數轉換

預測建模

LSTM
XGBoost

問題定義

我們在兩個不同的表中提供了商店的以下資訊：

商店：每個商店的ID
銷售：特定日期的營業額（我們的目標變數）
客戶：特定日期的客戶數量
StateHoliday：假日
SchoolHoliday

：學校假期
StoreType：4個不同的商店：a，b，c，d
CompetitionDistance：到最近的競爭對手商店的距離（以米為單位）
CompetitionOpenSince[月/年]：提供最近的競爭對手開放的大致年份和月份
促銷：當天促銷與否
Promo2：Promo2是某些商店的連續和連續促銷：0 =商店不參與，1 =商店正在參與
PromoInterval：描述促銷啟動的連續區間，並指定重新開始促銷的月份。

利用所有這些資訊，我們預測未來6周的銷售量。

# 讓我們匯入EDA所需的庫：
import numpy as np # 線性代數
import pandas as pd # 資料處理，CSV檔案I / O匯入（例如pd.read_csv）

import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
plt.style.use("ggplot") # 繪圖
#匯入訓練和測試檔案：
train_df = pd.read_csv("../Data/train.csv")
test_df = pd.read_csv("../Data/test.csv")
#檔案中有多少資料：
print("在訓練集中，我們有", train_df.shape[0], "個觀察值和", train_df.shape[1], 列/變數。")

print("在測試集中，我們有", test_df.shape[0], "個觀察值和", test_df.shape[1], "列/變數。")
print("在商店集中，我們有", store_df.shape[0], "個觀察值和", store_df.shape[1], "列/變數。")

在訓練集中，我們有1017209個觀察值和9列/變數。
在測試集中，我們有41088個觀測值和8列/變數。
在商店集中，我們有1115個觀察值和10列/變數。

首先讓我們清理訓練資料集。

#檢視資料
train_df.head().append(train_df.tail()) #顯示前5行。

train_df.isnull().all()
Out[5]:
Store False
DayOfWeek False
Date False
Sales False
Customers False
Open False
Promo False
StateHoliday False
SchoolHoliday False
dtype: bool

讓我們從第一個變數開始->銷售量

opened_sales = (train_df[(train_df.Open == 1) #如果商店開業
opened_sales.Sales.describe()
Out[6]:
count 422307.000000
mean 6951.782199
std 3101.768685
min 133.000000
25% 4853.000000
50% 6367.000000
75% 8355.000000
max 41551.000000
Name: Sales, dtype: float64
<matplotlib.axes._subplots.AxesSubplot at 0x7f7c38fa6588>

看一下顧客變數

In[9]:
train_df.Customers.describe()
Out[9]:
count 1.017209e+06
mean 6.331459e+02
std 4.644117e+02
min 0.000000e+00
25% 4.050000e+02
50% 6.090000e+02
75% 8.370000e+02
max 7.388000e+03
Name: Customers, dtype: float64
<matplotlib.axes._subplots.AxesSubplot at 0x7f7c3565d240>

train_df[(train_df.Customers > 6000)]

我們看一下假期變數。

train_df.StateHoliday.value_counts()

0 855087
0 131072
a 20260
b 6690
c 4100
Name: StateHoliday, dtype: int64

train_df.StateHoliday_cat.count()

train_df.tail()

train_df.isnull().all() #檢查缺失
Out[18]:
Store False
DayOfWeek False
Date False
Sales False
Customers False
Open False
Promo False
SchoolHoliday False
StateHoliday_cat False
dtype: bool

讓我們繼續進行商店分析

store_df.head().append(store_df.tail())

#缺失資料：
Store 0.000000
StoreType 0.000000
Assortment 0.000000
CompetitionDistance 0.269058
CompetitionOpenSinceMonth 31.748879
CompetitionOpenSinceYear 31.748879
Promo2 0.000000
Promo2SinceWeek 48.789238
Promo2SinceYear 48.789238
PromoInterval 48.789238
dtype: float64
In[21]:

讓我們從缺失的資料開始。第一個是CompetitionDistance

store_df.CompetitionDistance.plot.box()

讓我看看異常值，因此我們可以在均值和中位數之間進行選擇來填充NaN

缺少資料，因為商店沒有競爭。 因此，我建議用零填充缺失的值。

store_df["CompetitionOpenSinceMonth"].fillna(0, inplace = True)

讓我們看一下促銷活動。

store_df.groupby(by = "Promo2", axis = 0).count()

如果未進行促銷，則應將“促銷”中的NaN替換為零

我們合併商店資料和訓練集資料，然後繼續進行分析。

第一，讓我們按銷售量、客戶等比較商店。

f, ax = plt.subplots(2, 3, figsize = (20,10))
plt.subplots_adjust(hspace = 0.3)
plt.show()

從圖中可以看出，StoreType A擁有最多的商店，銷售和客戶。但是，StoreType D的平均每位客戶平均支出最高。只有17家商店的StoreType B擁有最多的平均顧客。

我們逐年檢視趨勢。

sns.factorplot(data = train_store_df,
# 我們可以看到季節性，但看不到趨勢。該銷售額每年保持不變
<seaborn.axisgrid.FacetGrid at 0x7f7c350e0c50>

我們看一下相關圖。

"CompetitionOpenSinceMonth", "CompetitionOpenSinceYear", "Promo2
<matplotlib.axes._subplots.AxesSubplot at 0x7f7c33d79c18>

我們可以得到相關性：

客戶與銷售（0.82）
促銷與銷售（0,82）
平均顧客銷量 vs促銷（0,28）
商店類別 vs 平均顧客銷量（0,44）

我的分析結論：

商店類別 A擁有最多的銷售和顧客。
商店類別 B的每位客戶平均銷售額最低。因此，我認為客戶只為小商品而來。
商店類別 D的購物車數量最多。
促銷僅在工作日進行。
客戶傾向於在星期一（促銷）和星期日（沒有促銷）購買更多商品。
我看不到任何年度趨勢。僅季節性模式。

最受歡迎的見解

1.在python中使用lstm和pytorch進行時間序列預測

2.python中利用長短期記憶模型lstm進行時間序列預測分析

3.使用r語言進行時間序列（arima，指數平滑）分析

4.r語言多元copula-garch-模型時間序列預測

5.r語言copulas和金融時間序列案例

6.使用r語言隨機波動模型sv處理時間序列中的隨機波動

7.r語言時間序列tar閾值自迴歸模型

8.r語言k-shape時間序列聚類方法對股票價格時間序列聚類

9.python3用arima模型進行時間序列預測

Python對商店資料進行lstm和xgboost銷售量時間序列建模預測分析

原文連結：http://tecdat.cn/?p=17748 在資料科學學習之旅中，我經常處理日常工作中的時間序列資料集，並據此做出預測。

使用機器學習和Python對約會資料進行排序

作者|Marco Santos 編譯|Flin 來源|towardsdatascience 在無休止地瀏覽成百上千個交友檔案，卻沒有一個與之匹配之後，人們可能會開始懷疑這些檔案是如何在手機上出現的。所有這些配置檔案都不是他們要找的型別。他們

利用OpenCV中對影象資料進行64F和8U轉換的方式

在OpenCV中很多對資料的運算都需要轉換為64F型別，比如伽瑪變換，這個很明顯要求冪的底數是double型別~

Python對系統資料進行採集監控——psutil

大家好，我是辰哥～今天給大家介紹一個可以獲取當前系統資訊的庫——psutil

用Python對Excel資料進行分列處理

split用法以下例項展示了 split() 函式的使用方法： #!/usr/bin/python3 str = \"this is string example....wow!!!\"print (str.split( )) # 以空格為分隔符print (str.split(\'i\',1)) # 以 i 為分隔符print (st

python 對任意資料和曲線進行擬合併求出函式表示式的三種解決方案

第一種是進行多項式擬合，數學上可以證明，任意函式都可以表示為多項式形式。具體示例如下。

利用Python對DVWA網站的子目錄和檔案進行列舉

1 import requests 2 import optparse 3 import sys 4 import os 5 import threading 6 7 class DirectoryFinder:

python對常見資料型別的遍歷解析

字串遍歷 >>> a_str = \"hello itcast\" >>> for char in a_str: ...print(char,end=\' \')

使用Python對Dicom檔案進行讀取與寫入的實現

Pydicom 單張影像的讀取使用 pydicom.dcmread() 函式進行單張影像的讀取,返回一個pydicom.dataset.FileDataset物件.

python 操作mysql資料中fetchone()和fetchall()方式

fetchone() 返回單個的元組，也就是一條記錄(row)，如果沒有結果則返回 None fetchall()

java使用URLDecoder和URLEncoder對中文字元進行編碼和解碼

摘要：　　URLDecoder 和 URLEncoder 用於完成普通字串和 application/x-www-form-urlencoded MIME 字串之間的相互轉換。在本文中，我們以使用URLDecoder解決GET請求中文亂碼問題為場景說明 URLDecoder/URLEncoder

Python內建資料結構----bytes和bytearray

bytes和bytearray Python提供了兩種位元組序列：不可變的 bytes 和可變的 bytearray 字串是字元組成的有序序列，在記憶體和磁碟中，所有的物件都是以二進位制數字（0和1）表示的。因為這些數字每8個為1組組成一個位

Vue表格中對某個資料進行簡單處理

Vue表格中對某個資料進行簡單處理在很多的場景中，我們後端從資料庫拿到的資料需要進行一些處理再展示到前端上，比如本文舉例的論文查重系統中的重複率這一列，該列的資料在資料庫是小數形式存在，前端需要展示的是

SpringBoot結合JSR303對前端資料進行校驗的示例程式碼

一、校驗分類資料的校驗一般分為**前端校驗、後端校驗** 二、前端校驗前端校驗是最為明顯的，先說一下：

使用python對小說更新進行提醒

總管寫的書一直都很喜歡，從《雪中悍刀行》到《劍來》。其實我還是最喜歡那個雪中的滑鼠墊，哈哈哈

用自定義的form表單對jqgrid資料進行檢索查詢

資料如下：http://stackoverflow.com/questions/5819071/jqgrid-custom-form-to-search-data-select-box-problem

application：bs4+requests對網頁資料進行解析

邏輯過程： 1.通過requests對網頁進行爬取，返回網頁html 2.通過bs4對網頁資料進行解析，返回列表資料

python對 MySQL 資料庫進行增刪改查的指令碼

# -*- coding: utf-8 -*- import pymysql import xlrd # import codecs #連線資料庫 conn = pymysql.connect(host=\'127.0.0.1\',port=3306,user=\'root\',passwd=\'\',db=\'test_hvr\',charset=\'utf8\')

EM 演算法-對鳶尾花資料進行聚類

公號：碼農充電站pro 主頁：https://codeshellme.github.io 之前介紹過K 均值演算法，它是一種聚類演算法。今天介紹EM 演算法，它也是聚類演算法，但比K 均值演算法更加靈活強大。

python對驗證碼進行降噪後使用tesserocr識別

技術標籤：爬蟲python影象識別爬蟲資料探勘opencv 使用tesserocr庫可以識別圖片驗證碼，我們以一個簡單的圖片驗證碼為例，來演示這個流程因為驗證碼中噪點、干擾線以及顏色的干擾，我們不能直接使用tesserocr庫來

Python對商店資料進行lstm和xgboost銷售量時間序列建模預測分析

原文連結：http://tecdat.cn/?p=17748

探索性資料分析（EDA）

預測建模

問題定義

我的分析結論：

相關推薦