開源專案Easy Machine Learning簡介

阿新 • • 發佈：2019-02-05

Easy Machine Learning這個專案是網路資料探勘課上老師團隊做系統，推薦給我們用來做大作業，目前只學了點皮毛，先對專案的簡介進行大概的翻譯。原專案地址

什麼是Easy Machine Learning

機器學習演算法已經成為許多大資料應用的關鍵組成部分。然而，機器學習的全部潛力還遠遠沒有發揮出來，因為使用機器學習演算法是困難的，尤其是在Hadoop和Spark等分散式平臺上。關鍵障礙不僅來自於演算法本身的實現，還包括將它們應用到實際應用程式中的處理，這些應用程式通常涉及多個步驟和不同的演算法。
我們的平臺Easy Machine Learning提供了一種通用的基於資料流的系統，用於簡化將機器學習演算法應用到現實世界任務的過程。在系統中，一個學習任務被制定為一個有向無環圖(DAG)，其中每個節點代表一個操作(例如機器學習演算法)，每個節點代表從一個節點到其後代的資料流。任務可以手動定義，也可以從現有的任務/模板中克隆。在向雲提交任務後，每個節點將自動按照DAG執行。為使使用者建立、配置、提交和監視任務的拖放方式實現了圖形使用者介面。
系統的優勢如下：
1. 降低了定義和執行機器學習任務的障礙;
2. 共享和重用演算法的實現，工作任務，以及實驗結果;
3. 在一項任務中無縫整合獨立演算法和分散式演算法。

該系統由三個主要組成部分組成:

分散式機器學習庫：不僅實現了常用的機器學習演算法，而且還實現了資料預處理/後處理、資料格式轉換、特徵生成、效能評估等演算法。這些演算法主要是基於Spark實現的。
一個基於gui的Machine Learning Studio系統：允許使用者建立、配置、提交、監視和分享他們的機器學習過程。機器學習庫中的所有演算法都可以在Studio系統中進行訪問和配置。它們是構建機器學習任務的關鍵構件。
執行任務的雲服務。我們基於Hadoop和Spark的開源大資料平臺構建服務。為了構建一個平臺，我們在Docker上組織了一個伺服器叢集。從GUI接收任務DAG後，每個節點將自動排程，在所有依賴資料來源就緒後執行。節點上的演算法會根據它們的實現在Linux、Spark或map - reduce中執行。

如何包含到我的工程？

pull整個專案，並準備一些必要的環境和開發工具。

如何使用Easy Machine Learning Studio

啟動EasyML工程後，訪問：http://localhost:18080/EMLStudio.html，使用賬號[email protected] 密碼： bdaict。推薦使用Chrome開啟。
這裡寫圖片描述
如下圖所示，使用者可以使用頁面左側面板中列出的演算法和資料集建立機器學習任務(dataflow DAG)。可以選擇點選程式和資料面板中列出的演算法和資料集。還可以單擊作業面板，選擇現有任務，克隆它，並進行必要的修改。使用者可以在右側面板中配置每個節點的任務資訊和引數值。任務中的節點可以對應於獨立的Linux程式或執行在Spark或Hadoop map - reduce上的分散式程式。
這裡寫圖片描述

在單擊submit按鈕之後，該任務將提交到雲上執行。每個節點的狀態用不同的顏色表示，如下圖所示。
這裡寫圖片描述

使用者可以右擊完成執行節點的綠色輸出埠預覽輸出資料。可以從每個完成執行節點的右擊選單中檢查stdout和stderr日誌。使用者可以通過右鍵單擊相應的輸出埠來檢查節點的輸出。在執行過程中列印的標準輸出和標準錯誤資訊可以通過右擊相應的節點來檢查，並選擇選單顯示STDOUT和Show STDERR。
這裡寫圖片描述

完成的(無論成功與否)任務可以被進一步修改並重新提交以執行，如下圖所示。我們的系統只會安排受影響的節點執行。未受影響節點的輸出被直接重用，以節省執行時間和系統資源。
這裡寫圖片描述

使用者可以上傳自己的演算法包和資料集，用於建立自己的任務或與其他使用者共享。通過單擊upload program按鈕，彈出視窗允許使用者指定演算法包的必要資訊，包括名稱、類別、描述和命令列模式字串等，如下圖所示。最重要的是用預定義的格式編寫命令列模式字串。它定義了一個節點的輸入埠、輸出埠和引數設定。我們在面板中開發了一個工具，幫助使用者編寫命令列字串模式。通過點選上傳資料按鈕，使用者可以上傳一個類似於上傳演算法包的資料集。
這裡寫圖片描述

開源專案Easy Machine Learning簡介

什麼是Easy Machine Learning

如何包含到我的工程？

如何使用Easy Machine Learning Studio

開源專案Easy Machine Learning簡介

spring開源專案簡介

機器學習專案開發過程（End-to-End Machine Learning Project）

二、《Hands-On Machine Learning with Scikit-Learn and TensorFlow》一個完整的機器學習專案

國內知名網際網路企業開源專案簡介及Git位置

【Machine Learning】機器學習及其基礎概念簡介

【簡介】利用Arduino和Coolpy設計閘道器 —— 開源專案Coolpy

18個Angular開源專案的簡介

谷歌Cloud Machine Learning平臺簡介

【機器學習入門】Andrew NG《Machine Learning》課程筆記之一：課程簡介

跟著Andrew Ng挑戰Machine Learning（第三週）Part 1：邏輯迴歸簡介

Github | 吳恩達新書《Machine Learning Yearning》完整中文版開源

machine learning--L1 ,L2 norm

Ng第十一課：機器學習系統的設計(Machine Learning System Design)

[Machine Learning (Andrew NG courses)]V. Octave Tutorial (Week 2)

Machine Learning in Action-chapter2-k近鄰算法

Ng第十七課：大規模機器學習(Large Scale Machine Learning)

Machine Learning：Neural Network---Representation

Machine Learning — 關於過度擬合（Overfitting）

Machine Learning — 邏輯回歸

開源專案Easy Machine Learning簡介

什麼是Easy Machine Learning

如何包含到我的工程？

如何使用Easy Machine Learning Studio

相關推薦