基於Kubernetes 的機器學習工作流

阿新 • • 發佈：2019-01-05

介紹

Pipeline是Kubeflow社群最近開源的一個端到端工作流專案，幫助我們來管理，部署端到端的機器學習工作流。Kubeflow 是一個谷歌的開源專案，它將機器學習的程式碼像構建應用一樣打包，使其他人也能夠重複使用。

kubeflow/pipeline 提供了一個工作流方案，將這些機器學習中的應用程式碼按照流水線的方式編排，形成可重複的工作流。並提供平臺，幫助編排，部署，管理，這些端到端機器學習工作流。

概念

pipeline 是一個面向機器學習的工作流解決方案，通過定義一個有向無環圖描述流水線系統（pipeline），流水線中每一步流程是由容器定義組成的元件（component）。

當我們想要發起一次機器學習的試驗時，需要建立一個experiment，在experiment中發起執行任務（run）。Experiment 是一個抽象概念，用於分組管理執行任務。

Pipeline：定義一組操作的流水線，其中每一步都由component組成。背後是一個Argo的模板配置。
Component：一個容器操作，可以通過pipeline的sdk 定義。每一個component 可以定義定義輸出（output）和產物（artifact），輸出可以通過設定下一步的環境變數，作為下一步的輸入， artifact 是元件執行完成後寫入一個約定格式檔案，在介面上可以被渲染展示。

Experiment：可以看做一個工作空間，管理一組執行任務。
Run： pipeline 的執行任務例項，這些任務會對應一個工作流例項。由Argo統一管理執行順序和前後依賴關係。
Recurring run: 定時任務，定義執行週期，Pipeline 元件會定期拉起對應的Pipeline Run。

Pipeline 裡的流程圖

元件的Artifact

模組

Pipeline 的元件比較簡單，大致分為5個部分。

MySQL：用於儲存Pipeline/Run 等元資料。
Backend：一個由go編寫的後端，提供kubernetes ApiServer 風格的Restful API。處理前端以及SDK發起的操作請求。 Pipeline/Experiment 之類的請求會直接存入MySQL元資料。和Run 相關的請求除了寫入MySQL以外還會通過APIServer 同步操作Argo例項。

CRD Controller： Pipeline 基於Argo擴充套件了自己的CRD ScheduledWorkflow， CRD Controller 中會主要監聽ScheduledWorkflow和Argo 的Workflow 這兩個CRD變化。處理定期執行的邏輯。
Persistence Agent：和CRD Controller 一樣監聽Argo Workflow變化，將Workflow狀態同步到MySQL 元資料中。它的主要職責是實時獲取工作流的執行結果。
Web UI：提供介面操作。從Backend 中讀取元資料，將流水線過程和結果視覺化，獲取日誌，發起新的任務等。

其他工具

除了以上核心模組以外， Pipeline提供了一系列工具，幫助更好構建流水線。

SDK，用於定義pipeline和component，編譯為一個argo yaml模板，可以在介面上匯入成pipeline。
CLI 工具，替代Web UI，呼叫Backend Api 管理流水線
Jupyter notebook。可以在notebook中編寫訓練程式碼，也可以在notebook中通過sdk管理Pipeline。

基於Kubernetes 的機器學習工作流

介紹 Pipeline是Kubeflow社群最近開源的一個端到端工作流專案，幫助我們來管理，部署端到端的機器學習工作流。Kubeflow 是一個谷歌的開源專案，它將機器學習的程式碼像構建應用一樣打包，使其他人也能夠重複使用。 kubeflow/pipeline 提供了一個工作流方案，將這些機器學習中的應用

Spark2.3.2　機器學習工作流構建

scala> import org.apache.spark.sql.SparkSession import org.apache.spark.sql.SparkSession scala> val spark = SparkSession.builder(). |

【Scala-ML】使用Scala構建機器學習工作流

引言在這一小節中，我將介紹基於資料（函式式）的方法來構建資料應用。這裡會介紹monadic設計來建立動態工作流，利用依賴注入這樣的高階函式式特性來構建輕便的計算工作流。建模過程在統計學和概率論中，一個模型通過描述從一個系統中觀察到的資料來表達任何

帶你輕鬆看懂機器學習工作流——以“點一份披薩外賣”為例

作者 | Daniel Godoy 翻譯 | Mika 本文為 CDA 資料分析師原創作品，轉載需授權想象一下你點了一份披薩外賣，過了一會兒美味熱騰騰的披薩就送到家門口了。你有沒有想過從下單點外賣到披薩送過來當中的工作流程呢？我指的是完成的工作流程，包括從種下披薩上的西紅柿

基於Jenkins和Kubernetes的CI工作流_Kubernetes中文社群

摘要 Jenkins作為最為流行的持續整合工具,在結合使用容器技術, Kubernetes 叢集的基礎上, 該如何發揮出新的能力, 在應用微服務化的基礎上, 提供更好的CI方式, 值得我們每一個開發人員去持續不斷的摸索. 本次分享主要介紹我司如何使用Jenkins Pipeline, Cont

基於Spark機器學習和實時流計算的智慧推薦系統

原文連結：http://blog.csdn.net/qq1010885678/article/details/46675501 概要：隨著電子商務的高速發展和普及應用，個性化推薦的推薦系統已成為一個重要研究領域。個性化推薦演算法是推薦系統中最核心的技術，在很大程

機器學習工作流程第一步：如何用Python做數據準備？

pandas 整數情況意思編程練習人工智能簡單的準備工作標題這篇的內容是一系列針對在Python中從零開始運用機器學習能力工作流的輔導第一部分，覆蓋了從小組開始的算法編程和其他相關工具。最終會成為一套手工制成的機器語言工作包。這次的內容會首先從數據準備開始。

機器學習，流式IoT和醫療設備互聯

sched 尋找研究所可能 iges 維護狀況 ted cti 歡迎大家前往騰訊雲+社區，獲取更多騰訊海量技術實踐幹貨哦~ 讓我們來看一下機器學習是如何應用於醫護行業以及如何借助Apache Spark對患者的監控數據進行處理現如今，IoT數據，實時流式數據分析

基於Windows 機器學習(Machine Learning)的圖像分類(Image classification)實現

BYD pack format ret bmp async 配置 rev 技術分享原文:基於Windows 機器學習(Machine Learning)的圖像分類(Image classification)實現今天看到一篇文章 Google’s Image

基於Petri網的工作流如何執行

A transition may only fire if it is enabled. This occurs when there is at least one token at each of its input places. The transitions are then, as it w

基於傳統機器學習的推薦系統

推薦演算法具有非常多的應用場景和商業價值，種類很多，但是目前使用最廣泛的是以下兩種： 1. 基於內容的推薦。通過NLP的一些技術，挖掘文字內容，進而做推薦。 2. 基於協同過濾演算法的推薦。 #協同過濾協同過濾(Collaborative Filtering)，假設我們有m

基於深度機器學習演算法DBNs的風險識別模型

前言：最初關注深度機器學習是聽了NUS的汪晟博士關於深度機器學習平臺SIGNA的介紹，當時就發現深度機器學習是人工智慧的一個革新的進步。但是由於從事的雲端計算和大資料方向的工作，所以平時只是作為自己的興趣領域看了一些相關的入門級資料。最近事業部的同事在討論文物保

【kubernetes/kubeadm】工作流之Runner資料結構

// phaseRunner provides a wrapper to a Phase with the addition of

基於Kubernetes的機器學習微服務系統設計系列——(九)應用服務

內容提要 1 分類任務 1.1 分類任務類圖 1.2 資料結構 1.3 排程狀態轉移 2 資源監控 2.1 資源監控類圖 2.2 部分程式碼實現 3 應用WEB部署

基於Kubernetes的機器學習微服務系統設計系列——(八)部署配置

內容提要 Docker映象製作 K8S RC建立 K8S Service建立本篇主要介紹Docker映象的製作、RC和Service的建立。 Docker映象製作下面以segment微服務為例描述Docker映象製作過

基於Kubernetes的機器學習微服務系統設計系列——(七)分類器微服務

內容提要分類器類圖部分程式碼實現請求JSON 響應JSON DEBUG資訊分類器微服務主要實現如下分類選擇演算法：k-Nearest Neighbor(kNN)、Naïve Bayes(NB)、Support Ve

基於Kubernetes的機器學習微服務系統設計系列——(六)特徵選擇微服務

內容提要特徵選擇類圖部分實現程式碼請求JSON 響應JSON 特徵選擇微服務主要實現如下特徵選擇演算法：Document Frequency(DF)、Information Gain(IG)、(χ2)Chi-Square

基於Kubernetes的機器學習微服務系統設計系列——(五)預處理微服務

內容提要實現程式碼請求JSON 響應JSON 文字分類任務的預處理階段一般包括中文分詞。這裡中文分詞單提出來，預處理階段的主要任務是停用詞去除、索引詞典的構建、詞文件矩陣化。實現程式碼預處理Action實現類 pa

基於Kubernetes的機器學習微服務系統設計系列——(四)中文分詞微服務

內容提要設計模式程式碼實現請求JSON 響應JSON 中文分詞微服務包括分詞方法有：RobinSeg(RS)、IKAnalyzer(IK)、JEAnalysis(JE)、MmSeg4j(MS)、PaoDing(PD)、Sm

基於Kubernetes的機器學習微服務系統設計系列——(三)RESTful微服務框架

內容提要微服務框架框架實現基於Kubernetes的機器學習微服務系統設計——(1)概念與構想為了微服務的介面互動統一，本系統採用統一的框架模式。採用Jersey軟體框架，Jersey 是開源的RESTful框架, 實現了J

基於Kubernetes 的機器學習工作流

介紹

概念

相關推薦