SLS機器學習最佳實戰：時序預測

阿新 • • 發佈：2018-12-09

為何需要預測？

通過分析序列進行合理預測，做到提前掌握未來的發展趨勢，為業務決策提供依據，這也是決策科學化的前提。
時間序列就是按時間順序排列的一組資料序列。時間序列分析就是發現這組資料的變動規律並用於預測的統計技術。

明天的賬單大約多少？？（根據在各個雲產品中資源消耗量進行預測 ---> 業務穩定）
業務流量預測，明天各個小時的流量如何？？（業務在穩定的情況下，也是可以預測的）
某公司的資源組的消耗情況？？（何時下發MR任務，導致哪些機器的資源消耗的情況，是具有一定規律，可以進行預測）

序列都可預測麼？

明天股票價格是多少，未來一年我買這個股票或者基金會賺多少錢？？

預測一下下一期的彩票號碼是多少？？
......

在大資料時代，相關關係似乎替代了因果關係。然而世界具有複雜性，大資料時代世界似乎被資料統治，是混沌的。相關關係是指當一個數據變化時，另一個數據也可能隨之變化，不論是這兩個資料也沒有必然聯絡。相關關係有可能是正相關也有可能是負相關，有可能是強相關也有可能是弱相關。因果關係是指當一個作為原因的資料變化時，另一個作為結果的資料在一定程度發生變化，這兩個資料存在著必然聯絡。因果關係可能是線性關係，也可能是非線性關係。
迴歸模型比相關係數進了一步，它可以解釋資料之間作用機制和作用的大小。但迴歸模型即使通過了各種統計檢驗，也可能只在一定程度上說明事物之間的因果關係。模型的自變數不一定是原因，因變數不一定是結果。$X_i$與$y_i$之間的因果關係是否成立，還要由統計學所應用領域的專家來判斷，如經濟學家、管理學家、生物學家、醫學家等，並大量的實踐得到檢驗。統計模型只能說包含真正因果關係的可能性較大，二真值在哪裡？上帝知道。

我們提供了什麼？

統計學模型

ts_predicate_simple(unixtime, val, nPred, samplePeriod, sampleMethod)
ts_predicate_ar(unixtime, val, p, nPred, samplePeriod, sampleMethod)
ts_predicate_arma(unixtime, val, p, q, nPred, samplePeriod, sampleMethod)
ts_predicate_arima(unixtime, val, p, d, q, nPred, samplePeriod, sampleMethod)

機器學習模型

不對資料做任何處理，直接使用GBRT模型進行預測

ts_regression_predict(unixtime, val, nPred, 'origin', samplePeriod, sampleMethod)

對資料做時序分解，對分解出來的序列分別做預測，在進行整合

ts_regression_predict(unixtime, val, nPred, 'forest', samplePeriod, sampleMethod)

不對資料做任何處理，使用線性模型進行預測

ts_regression_predict(unixtime, val, nPred, 'linear', samplePeriod, sampleMethod)

實際案例

Storage一週預測

UserId:xxxxxxxxxxx and Bucket: xxxxxxxxxxx | 
select date_format(cast(key1[1] as bigint), '%Y-%m-%d %h:%i') as t, key1[2] as src, key1[3] as val from ( 
select ts_regression_predict(EndTime, Storage, 168, 'linear', 1, 'avg') as key  from ( 
select EndTime, sum(Storage) as Storage from log GROUP  by EndTime )), unnest(key) as t(key1)  limit 1000

NetworkOut一週預測

UserId:xxxxxxxxxxx and Bucket: xxxxxxxxxxx | 
select date_format(cast(key1[1] as bigint), '%Y-%m-%d %h:%i')  as t, key1[2] as src, key1[3] as pred from (
select ts_regression_predict(EndTime, NetworkOut, 168, 'origin', 1, 'avg') as key  from ( 
select EndTime, sum(NetworkOut) as NetworkOut from log GROUP  by EndTime ) ), unnest(key) as t(key1) limit 10000

GetRequest一週預測

UserId:xxxxxxxxxxx and Bucket: xxxxxxxxxxx | 
select date_format(cast(key1[1] as bigint), '%Y-%m-%d %h:%i') as t, key1[2] as src, key1[3] as pred from ( 
select ts_regression_predict(EndTime, GetRequest, 168, 'origin', 1, 'avg') as key  from ( 
select EndTime, sum(GetRequest) as GetRequest from log GROUP  by EndTime )), unnest(key) as t(key1)  limit 1000

機櫃電量預測

* and  rackId:xxxxxxxxxxx | 
select date_trunc('minute', cast( key1[1] as bigint ) ) as time, key1[2] as source, key1[3] as pred from  ( 
select ts_regression_predict(time, rackTotalPower, 100, 'origin', 1, 'avg') as key from  ( 
select __time__ - __time__ % 1800 as time, sum(rackTotalPower) as rackTotalPower from log GROUP BY  time ) ), unnest(key) as t(key1) limit 10000

硬廣時間

日誌進階

阿里雲日誌服務針對日誌提供了完整的解決方案，以下相關功能是日誌進階的必備良藥：

機器學習語法與函式: https://help.aliyun.com/document_detail/93024.html
日誌上下文查詢：https://help.aliyun.com/document_detail/48148.html
快速查詢：https://help.aliyun.com/document_detail/88985.html
實時分析：https://help.aliyun.com/document_detail/53608.html
快速分析：https://help.aliyun.com/document_detail/66275.html
基於日誌設定告警：https://help.aliyun.com/document_detail/48162.html
配置大盤：https://help.aliyun.com/document_detail/69313.html

更多日誌進階內容可以參考：日誌服務學習路徑。

聯絡我們

糾錯或者幫助文件以及最佳實踐貢獻，請聯絡：悟冥
問題諮詢請加釘釘群：

f5d48178a8f00ad1b8e3fffc73fb9158b3f8fe10_jpeg

SLS機器學習最佳實戰：時序預測

為何需要預測？通過分析序列進行合理預測，做到提前掌握未來的發展趨勢，為業務決策提供依據，這也是決策科學化的前提。時間序列就是按時間順序排列的一組資料序列。時間序列分析就是發現這組資料的變動規律並用於預測的統計技術。明天的賬單大約多少？？（根據在各個雲產品中資源消耗量進行預測 ---> 業務

SLS機器學習最佳實戰：批量時序異常檢測

0.文章系列連結 SLS機器學習介紹（01）：時序統計建模 SLS機器學習介紹（02）：時序聚類建模 SLS機器

SLS機器學習最佳實戰：日誌聚類+異常告警

摘要：圍繞日誌，挖掘其中更大價值，一直是我們團隊所關注。在原有日誌實時查詢基礎上，今年SLS在DevOps領域完善了如

機器學習案例實戰：信用卡欺詐檢測

故事背景原始資料為個人交易記錄，但是考慮資料本身的隱私性，已經對原始資料進行了類似PCA的處理，現在已經把特徵資料提取好了，接下來的目的就是如何建立模型使得檢測的效果達到最好，這裡我們雖然不需要對資料做特徵提取的操作，但是面對的挑戰還是蠻大的。import pa

SLS機器學習介紹（02）：時序聚類建模

文章系列連結 SLS機器學習介紹（01）：時序統計建模 SLS機器學習介紹（02）：時序聚類建模 SLS機器學習介紹（03）：時序異常檢測建模 SLS機器學習介紹（04）：規則模式挖掘前言第一篇文章SLS機器學習介紹（01）：時序統計建模上週更新完，一下子炸出了很多潛伏的業

SLS機器學習介紹（03）：時序異常檢測建模

文章系列連結 SLS機器學習介紹（01）：時序統計建模 SLS機器學習介紹（02）：時序聚類建模 SLS機器學習介紹（03）：時序異常檢測建模 SLS機器學習介紹（04）：規則模式挖掘 SLS機器學習最佳實戰：時序異常檢測和報警摘要與背景雖然計算機軟硬體的快速發展已

SLS機器學習介紹（01）：時序統計建模

文章系列連結 SLS機器學習介紹（01）：時序統計建模 SLS機器學習介紹（02）：時序聚類建模 SLS機器學習介紹（03）：時序異常檢測建模 SLS機器學習介紹（04）：規則模式挖掘 SLS機器學習最佳實戰：時序異常檢測和報警背景時序資料是業務監控中最多方法，雙十

SLS機器學習介紹（05）：時間序列預測

00系列文章目錄 0.1 演算法原理目錄 SLS機器學習介紹（01）：時序統計建模 SLS機器學習介紹（02）：時序聚類建模 SLS機器學習介紹（03）：時序異常檢測建模 SLS機器學習介紹（04）：規則模式挖掘 SLS機器學習介紹（05）：時間序列預測 0.2 演算法最佳實踐

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

機器學習之路：python支持向量機回歸SVR 預測波士頓地區房價

sta val dict min shape 支持 RR 訓練數據采樣 python3 學習使用api 支持向量機的兩種核函數模型進行預測 git: https://github.com/linyi0604/MachineLearning from sklear

【機器學習PAI實戰】—— 玩轉人工智慧之商品價格預測

開發十年，就只剩下這套架構體系了！ >>>

機器學習專案實戰----泰坦尼克號獲救預測(一)

一、任務基礎泰坦尼克號沉沒是歷史上最著名的沉船事故之一。1912年4月15日，在她的處女航中，泰坦尼克號在與冰山相撞後沉沒，在2224名乘客和機組人員中造成1502人死亡。這場聳人聽聞的悲劇震驚了國際社會，併為船舶制定了更好的安全規定。造成海難失事的原因之一是乘客和機組人員沒有足夠的救生艇。儘管倖存下沉有

機器學習專案實戰----泰坦尼克號獲救預測(二)

四、特徵重要性衡量通過上面可以發現準確率有小幅提升，但是似乎得到的結果還是不太理想。我們可以發現模型似乎優化的差不多了，使用的特徵似乎也已經使用完了。準確率已經達到了瓶頸，但是如果我們還想提高精度的話，還是要回到最原始的資料集裡面。對分類器的結果最大的影響還是輸入的資料本身。接下來採用的方法一般是從原始的

機器學習入門實戰——基於knn的airbnb房租預測

資料讀取 import pandas as pd features=['accommodates','bathrooms','bedrooms','beds','price','minimum_nights','maximum_nights','number_of_reviews'] dc_listings

機器學習最佳入門學習資料匯總

行程 view 概率應該 mic 時有挖掘書包發現譯者：teyla 原文作者：Jasonb 發布：2014-06-05 13:54:15 挑錯這篇文章的確很難寫，因為我希望它真正地對初學者有幫助。面前放著一張空白的紙，我坐下來問自己一個難題：面對一個對機器學習

機器學習第二章：模型評估與選擇-總結

但是交叉 roc曲線掃描 com ram hidden 技術分享 preview 1、數據集包含1000個樣本，其中500個正例，500個反例，將其劃分為包含70%樣本的訓練集和30%樣本的測試集用於留出法評估，試估算共有多少種劃分方式。留出法將數據集劃分為兩個互斥的

機器學習python實戰----邏輯回歸

多次 python實戰 ron and 代碼實現技術訓練集錯誤常數　　當看到這部分內容的時候我是激動的，因為它終於能跟我之前學習的理論內容聯系起來了，這部分內容就是對之前邏輯回歸理論部分的代碼實現，所以如果有不甚理解的內容可以返回對照著理論部分來理解，下面我們進入

機器學習python實戰----線性回歸

pyplot 理論普通遍歷 sca def blog reg .so 一、綱要　　線性回歸的正規方程解法　　局部加權線性回歸二、內容詳述　　1、線性回歸的正規方程解法　　線性回歸是對連續型的數據進行預測。這裏討論的是線性回歸的例子，對於非線性回歸先不做討論。這

機器學習筆記(3)：多類邏輯回歸

display images 可能 https 都沒有 -s labels 明顯交叉仍然是動手學嘗試學習系列的筆記，原文見：多類邏輯回歸 — 從0開始。這篇的主要目的，是從一堆服飾圖片中，通過機器學習識別出每個服飾圖片對應的分類是什麽（比如：一個看起來

分布式學習最佳實踐：從分布式系統的特征開始（附思維導圖）

擴展問題 sca ref 調度這也集中技術 park 　　　我的探索歷程　　這一部分，與分布式不大相關，記錄的是我是如何在分布式學習這條道路上摸索的，不感興趣的讀者請直接跳到下一章。　　過去的一年，我在分布式學習這條道路上苦苦徘徊，始終沒有找到一個好的學

SLS機器學習最佳實戰：時序預測

為何需要預測？

序列都可預測麼？

我們提供了什麼？

統計學模型

機器學習模型

實際案例

硬廣時間

日誌進階

聯絡我們

相關推薦