Dotnet core基於ML.net的銷售資料預測實踐

阿新 • • 發佈：2020-06-17

ML.net已經進到了1.5版本。作為Microsoft官方的機器學習模型，你不打算用用？

一、前言

ML.net可以讓我們很容易地在各種應用場景中將機器學習加入到應用程式中。這是這個框架很重要的一點。

通過ML.net，我們可以使用手中的可用資料，進行預測、分析、檢測，而不需要進行過於複雜的程式設計。

ML.net的核心，同樣是機器學習模型。它採用同樣的步驟，通過指定演算法來訓練模型，將輸入資料轉換為所需的預測資料。

更重要的是，ML.net基於.NET Core，這讓它可以非常簡單地跨平臺，在Windows、Linux、MacOS上執行，併成為我們服務端的一部分內容。

回到今天的主題。

我們用實際的例子，完成一個通過歷史銷售資料進行單變數時序分析（單譜分析），以預測未來銷量的需求。

為了防止不提供原網址的轉載，特在這裡加上原文連結：https://www.cnblogs.com/tiger-wang/p/13150021.html

二、開發環境&基礎工程

這個Demo的開發環境是：Mac + VS Code + Dotnet Core 3.1.2。

$ dotnet --info
.NET Core SDK (reflecting any global.json):
 Version:   3.1.201
 Commit:    b1768b4ae7

Runtime Environment:
 OS Name:     Mac OS X
 OS Version:  10.15
 OS Platform: Darwin
 RID:         osx.10.15-x64
 Base Path:   /usr/local/share/dotnet/sdk/3.1.201/

Host (useful for support):
  Version: 3.1.3
  Commit:  4a9f85e9f8

.NET Core SDKs installed:
  3.1.201 [/usr/local/share/dotnet/sdk]

.NET Core runtimes installed:
  Microsoft.AspNetCore.App 3.1.3 [/usr/local/share/dotnet/shared/Microsoft.AspNetCore.App]
  Microsoft.NETCore.App 3.1.3 [/usr/local/share/dotnet/shared/Microsoft.NETCore.App]

首先，在這個環境下建立工程：

建立Solution

% dotnet new sln -o demo
The template "Solution File" was created successfully.

這次，我們用Console建立工程

% cd demo
% dotnet new console -o demo
The template "Console Application" was created successfully.

Processing post-creation actions...
Running 'dotnet restore' on demo/demo.csproj...
  Determining projects to restore...
  Restored demo/demo.csproj (in 143 ms).

Restore succeeded.

把工程加到Solution中

% dotnet sln add demo/demo.csproj

基礎工程搭建完成。

三、引入ML.net庫

為了使用ML.net，我們需要引入Microsoft.ML庫：

% cd demo
% dotnet add package Microsoft.ML

除此之外，本文是基於時序的預測，還需要引入時序庫Microsoft.ML.TimeSeries：

% dotnet add package Microsoft.ML.TimeSeries

我們今天用到的演算法是單譜分析（SSA）。SSA會將時序分解為一組主要成分，並將這些成分解釋為訊號，對應於趨勢、噪音、季節性及許多其他的因素，然後重新構建這些成分，用來預測未來某個時間的值。

四、準備資料

為了這個DEMO，我準備了一個包含全年365天實際銷售金額的資料。

其中這個資料又分為了兩部分，第一部分是前11個月的資料，用來做訓練，第二部分是12月一個月的資料，用來評估模型。

兩部分資料的連結如下：訓練資料，評估資料

兩個資料檔案均為CSV檔案，資料結構完全相同，下面是一段內容範例：

2018-12-21,17959.0
2018-12-22,19537.03
2018-12-23,20068.0
2018-12-24,20013.0
2018-12-25,21005.0
2018-12-26,16876.0
2018-12-27,15150.0
2018-12-28,15669.0
2018-12-29,25048.0
2018-12-30,25236.0

五、程式碼開發

準備一個輸入模型ModelInput

public class ModelInput
{
    [LoadColumn(0)]
    public DateTime action_time { get; set; }
    [LoadColumn(1)]
    public float count { get; set; }
}

這個模型對應資料檔案的結構，分兩個欄位，第一個是日期，第二個是對應的銷售金額。

準備另一個輸出模型ModelOutput

public class ModelOutput
{
    public float[] forecasted_count { get; set; }
    public float[] lower_count { get; set; }
    public float[] upper_count { get; set; }
}

這個模型跟隨預測結果的輸出，其中：

forecasted_count - 預測時間段內的預測值
lower_count - 預測時間段內預測值的下限
upper_count - 預測時間段內預測值的上限

初始化機器學習的例項

MLContext mlContext = new MLContext();

執行所有 ML.NET 操作都是從MLContext類開始，初始化 MLContext將建立一個新的 ML.net 環境，並在模型建立工作流物件之間共享該環境。

載入資料

ML.net有多種資料的載入方式，可以通過檔案、資料庫、JSON/XML、記憶體中載入資料，甚至可以用自定義的資料庫連線載入資料。

本文的DEMO中，資料在CSV檔案中，所以，我們採用下面的方式載入：

static readonly string _data1Path = Path.Combine(Environment.CurrentDirectory, "data1.csv");
static readonly string _data2Path = Path.Combine(Environment.CurrentDirectory, "data2.csv");

static void Main(string[] args)
{
    MLContext mlContext = new MLContext();

    IDataView data1View = mlContext.Data.LoadFromTextFile<ModelInput>(_data1Path, separatorChar: ',', hasHeader: false);
    IDataView data2View = mlContext.Data.LoadFromTextFile<ModelInput>(_data2Path, separatorChar: ',', hasHeader: false);
}

IDataView是資料的承載空間。

定義時序分析管道

var forecastingPipeline = mlContext.Forecasting.ForecastBySsa(
    outputColumnName: "forecasted_count",
    inputColumnName: "count",
    windowSize: 7,
    seriesLength: 30,
    trainSize: 334,
    horizon: 7,
    confidenceLevel: 0.95f,
    confidenceLowerBoundColumn: "lower_count",
    confidenceUpperBoundColumn: "upper_count");

前面有說過，我們採用單譜分析，所以程式碼中我們選擇了mlContext.Forecasting.ForecastBySsa。

解釋一下這裡面的幾個引數：

trainSize - 資料樣本的數量，也就是訓練資料的行數（在這個檔案中，一行是一個數據樣本，共334行）
seriesLength - 從資料樣本按時序取樣時的間隔，這裡是30天
windowSize - 樣本週期的天數，這裡是7天
horizon - 預測結果的天數
confidenceLevel - 上下限的可信度。預測屬於合理猜測，不總是完全準確。
其它幾個引數，對應輸入輸出模型的欄位名

訓練模型

管道定義完成，資料載入完成，下面要進行資料訓練。

SsaForecastingTransformer forecaster = forecastingPipeline.Fit(data1View);

跟隨上一節，管道是單譜管道，所以訓練也是單譜訓練SsaForecastingTransformer。

程式執行到這裡，資料訓練完成。

模型評估

模型評估不是必須環節。

模型評估的意義在於：通過評估模型的效能，來調整管道的引數，以達到最佳的預測效果。

模型評估也有多種方式。在這裡，我們採用平均絕對誤差和均方根誤差來做評估依據。

static void Evaluate(IDataView testData, ITransformer model, MLContext mlContext)
{
    IDataView predictions = model.Transform(testData);

    IEnumerable<float> actual =
        mlContext.Data.CreateEnumerable<ModelInput>(testData, true)
            .Select(p => p.count);

    IEnumerable<float> forecast =
        mlContext.Data.CreateEnumerable<ModelOutput>(predictions, true)
            .Select(p => p.forecasted_count[0]);

    var metrics = actual.Zip(forecast, (actualValue, forecastValue) => actualValue - forecastValue);

    var MAE = metrics.Average(error => Math.Abs(error));
    var RMSE = Math.Sqrt(metrics.Average(error => Math.Pow(error, 2)));

    Console.WriteLine("評估結果");
    Console.WriteLine("---------------------");
    Console.WriteLine($"平均絕對誤差: {MAE:F3}");
    Console.WriteLine($"均方根誤差: {RMSE:F3}\n");
}

在這個方法中，我們取評估資料的實際值actual和通過訓練資料生成的預測值forecast，計算兩個誤差並輸出。

在Main中呼叫此方法：

static void Main(string[] args)
{
        /* 這兒是前邊訓練的程式碼，略過 */

        Evaluate(data2View, forecaster, mlContext);
}
static void Evaluate(IDataView testData, ITransformer model, MLContext mlContext)
{
      /* 這兒是評估模型的方法，上面有，略過 */
}

輸出結果類似於以下內容：

評估結果
---------------------
平均絕對誤差: 23.442
均方根誤差: 174.236

兩個指標：

平均絕對誤差 - 度量預測與實際值之間的接近程度。此值介於 0 到無限大之間。越接近 0，模型的質量越好。
均方根誤差 - 彙總模型中的錯誤。此值介於 0 到無限大之間。越接近 0，模型的質量越好。

預測

訓練模型調整到滿意後，即可開始預測的工作：

var forecastEngine = forecaster.CreateTimeSeriesEngine<ModelInput, ModelOutput>(mlContext);
ModelOutput forecast = forecastEngine.Predict();

這兩行程式碼，在記憶體中載入前邊訓練好的模型，並進行預測操作。預測資料的結果放在forecast中。

對應於分析管道定義中的horizon，預測資料包含7天的預測結果。

預測結果輸出

放在forecast中的資料，對應模型ModelOutput，可以用在任何地方。

在本文中，我們直接顯示到Console：

IEnumerable<string> forecastOutput =
    mlContext.Data.CreateEnumerable<ModelInput>(data2View, reuseRowObject: false)
        .Take(7)
        .Select((ModelInput data, int index) =>
        {
            string action_date = data.action_time.ToString("yyyy-MM-dd");
            float actual_count = data.count;
            float lowerEstimate = Math.Max(0, forecast.lower_count[index]);
            float estimate = forecast.forecasted_count[index];
            float upperEstimate = forecast.upper_count[index];
            return $"日期: {action_date}\n" +
            $"實際值: {actual_count}\n" +
            $"預測下限估值: {lowerEstimate}\n" +
            $"預測估值: {estimate}\n" +
            $"預測上限估值: {upperEstimate}\n";
        });

Console.WriteLine("預測結果");
Console.WriteLine("---------------------");
foreach (var prediction in forecastOutput)
{
    Console.WriteLine(prediction);
}

執行結果類似於以下內容：

預測結果
---------------------
日期: 2018-12-01
實際值: 24566.08
預測下限估值: 16791.379
預測估值: 20394.115
預測上限估值: 23996.852

完成！

六、延伸內容

ML.net包含了很多機器學習的內容。其中，我自己認為時序預測是用途很廣的一個部分，可以用在

銷售預測
庫存預警
活動策劃輔助

以及其它諸如天氣、股票、人口等諸多內容上，依靠過去和現在的資料，分析兩者之間的關係，然後利用得到的這個關係去預測未來的資料。

因此，在這個分類中，我的第一篇文章就寫了時序預測。

機器學習，核心是各種演算法，而演算法的基礎是一類數學。這是一個很高的坎。刷演算法，線性的部分還好，一旦到了冪次或矩陣，沒有正統的學習，是很難有突破的。而即便刷通了，也只是皮毛性的理解，距離創造演算法的大神，還有很長的距離。

所以，退而求其次，對很多人而言，與其花大功夫去研究演算法，不如多研究下如何能把現有的演算法或工具用好。

還有，在應用中，你能用機器學習來預測銷量、預測庫存，有沒有很自豪？是不是很高大上？

（全文完）

本文的對應程式碼，在https://github.com/humornif/Demo-Code/tree/master/0013/demo

微信公眾號：老王Plus

掃描二維碼，關注個人公眾號，可以第一時間得到最新的個人文章和內容推送

本文版權歸作者所有，轉載請保留此宣告和原文連結

Dotnet core基於ML.net的銷售資料預測實踐

ML.net已經進到了1.5版本。作為Microsoft官方的機器學習模型，你不打算用用？一、前言 ML.net可以讓我們很容易地在各種應用場景中將機器學習加入到應用程式中。這是這個框架很重要的一點。通過ML.net，我們可以使用手中的可用資料，進行預測、分析、檢測，而不需要進行過於複雜的程式設

ML.net 3-情緒預測

1. 載入測試資料（csv） 2.載入模型 3.訓練資料 4.預測一句話的情緒實現： using System; using System.Collections.Generic; using System.IO; using System.Text; using Syst

C#使用ML.Net完成人工智慧預測

前言 Visual Studio2019 Preview中提供了圖形介面的ML.Net，所以，只要我們安裝Visual Studio2019 Preview就能簡單的使用ML.Net了，因為我的電腦已經安裝了Visual Studio2019，所以我不需要重頭安裝Visual Studio2019 Previ

ML.NET 示例：迴歸之銷售預測

寫在前面準備近期將微軟的machinelearning-samples翻譯成中文，水平有限，如有錯漏，請大家多多指正。如果有朋友對此感興趣，可以加入我：https://github.com/feiyun0112/machinelearning-samples.zh-cn eShopDash

ML.NET 示例：回歸之銷售預測

odin soft metrics nsf append sco 生成 ont 銷售寫在前面準備近期將微軟的machinelearning-samples翻譯成中文，水平有限，如有錯漏，請大家多多指正。如果有朋友對此感興趣，可以加入我：https://github.

基於 abp vNext 和 .NET Core 開發部落格專案 - 資料訪問和程式碼優先

上一篇文章(https://www.cnblogs.com/meowv/p/12909558.html)完善了專案中的程式碼，接入了Swagger。本篇主要使用Entity Framework Core完成對資料庫的訪問，以及使用Code-First的方式進行資料遷移，自動建立表結構。 ## 資料訪問在

學習ML.NET(2): 使用模型進行預測

pack 發送post請求 ros 返回內容客戶 val net pipe 訓練模型在上一篇文章中，我們已經通過LearningPipeline訓練好了一個“鳶尾花瓣預測”模型， var model = pipeline.Train&l

.net core基於mysql的增刪改查

文章目錄前言 1. 資料庫操作 2. Models實體類 3. 資料庫具體操作類 4. Controller 控制器 5.Views前端前言這篇文章的程式已

ML.Net 1 - 預測水仙花型別

1. 定義資料結構 2. 讀取訓練資料 3. 選擇向量 4. 訓練模型 5. 預測實現： using System; using System.Collections.Generic; using System.Configuration; using System.Text; us

ML.NET 2- 預測出租車價格

1. 預備測試資料 2. 載入模型 3. 訓練 4. 預測實現： TaxiFarePrediction.cs: using System; using System.Collections.Generic; using System.IO; using System.Text; usi

ML.NET 3- 預測房價

1.預備訓練資料 2.根據訓練資料生成模型 3.預測實現： using System; using System.Collections.Generic; using System.IO; using System.Text; using System.Threa

使用ML.NET + ASP.NET Core + Docker + Azure Container Instances部署.NET機器學習模型

cat ports sed tar enc convert esp asp truct 本文將使用ML.NET創建機器學習分類模型，通過ASP.NET Core Web API公開它，將其打包到Docker容器中，並通過Azure Container Instances將其

學習ML.NET(3): 匯入資料集

機器學習演算法需要作用於資料，用來訓練演算法模型。資料集通常是以純文字檔案儲存的表格資料，檔案的每一行是一條資料記錄，每條記錄由多列組成，列之間用分隔符（一般是逗號,）分開，例如前面用到過的在ML.NET中，使用TextLoader將文字檔案匯入到資料集。使用方式如下： new TextLoader

基於全球恐怖襲擊資料死傷資料預測分析

library(maps) library(ggplot2) #地圖資料 data(world.cities); head(data1) mycols <- runif(10,min=1,max=length(colors())) summary(data1)

基於Asp.net core Kestrel的超迷你http伺服器

　　AServer是基於ASP.NET Core Kestrel封裝的一個超迷你http伺服器。它可以整合進你的Core程式裡，用來快速的響應Http請求，而不需要整合整個ASP.NET Core MVC 框架。一：什麼是ASever？　　AServer就像它的名字一樣，Just a server，它的功

ML.NET教程之計程車車費預測(迴歸問題)

理解問題計程車的車費不僅與距離有關，還涉及乘客數量，是否使用信用卡等因素(這是的計程車是指紐約市的)。所以並不是一個簡單的一元方程問題。準備資料建立一控制檯應用程式工程，新建Data資料夾，在其目錄下新增taxi-fare-train.csv與taxi-fare-test.csv檔案，不要忘了把它

python資料分析：會員資料執行（下）——基於AdaBoost的營銷響應預測

何為AdaBoost Adaboost是一種迭代演算法，其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器)，然後把這些弱分類器集合起來，構成一個更強的最終分類器(強分類器)。其演算法本身是通過改變資料分佈來實現的，它根據每次訓練集之中每個樣本的分類是否正確，以及上次的總體分類的

基於.NET實現資料探勘--聚類分析演算法

http://www.cnblogs.com/captain_ccc/articles/4093615.html 本篇文章主要採用另外一種分析演算法對目標顧客群體的挖掘，同樣的利用微軟案例資料進行簡要總結。應用場景介紹通過上一篇中我們採用Microsoft決策

代號V8-Zoomla!逐浪CMS基於DOT.NET Core新版將全面啟航

北京時間2018年12月20日，Zooma!逐浪CMS團隊公開下一代CMS產品代號：V8。這是繼Zoomla!逐浪CMS2版本以來，最重要的更新。我們將在未來發布傳統.net4.0框架的最後一版，然後進行維護。並在2019年上半年釋出完整開放、基於ASP.N

ML之多分類預測之PLiR：使用PLiR實現對六類label資料集進行多分類

ML之多分類預測之PLiR：使用PLiR實現對六類label資料集進行多分類輸出結果 [[1.0, 0.0, 0.0, 0.0, 0.0, 0.0], [1.0, 0.0, 0.0, 0.0, 0.0, 0.0], [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],

Dotnet core基於ML.net的銷售資料預測實踐

一、前言

二、開發環境&基礎工程

三、引入ML.net庫

四、準備資料

五、程式碼開發

六、延伸內容

相關推薦