1. 程式人生 > >開源專案Easy Machine Learning簡介

開源專案Easy Machine Learning簡介

Easy Machine Learning這個專案是網路資料探勘課上老師團隊做系統,推薦給我們用來做大作業,目前只學了點皮毛,先對專案的簡介進行大概的翻譯。原專案地址

什麼是Easy Machine Learning

機器學習演算法已經成為許多大資料應用的關鍵組成部分。然而,機器學習的全部潛力還遠遠沒有發揮出來,因為使用機器學習演算法是困難的,尤其是在Hadoop和Spark等分散式平臺上。關鍵障礙不僅來自於演算法本身的實現,還包括將它們應用到實際應用程式中的處理,這些應用程式通常涉及多個步驟和不同的演算法。
我們的平臺Easy Machine Learning提供了一種通用的基於資料流的系統,用於簡化將機器學習演算法應用到現實世界任務的過程。在系統中,一個學習任務被制定為一個有向無環圖(DAG),其中每個節點代表一個操作(例如機器學習演算法),每個節點代表從一個節點到其後代的資料流。任務可以手動定義,也可以從現有的任務/模板中克隆。在向雲提交任務後,每個節點將自動按照DAG執行。為使使用者建立、配置、提交和監視任務的拖放方式實現了圖形使用者介面。
系統的優勢如下:
1. 降低了定義和執行機器學習任務的障礙;
2. 共享和重用演算法的實現,工作任務,以及實驗結果;
3. 在一項任務中無縫整合獨立演算法和分散式演算法。

該系統由三個主要組成部分組成:

  • 分散式機器學習庫:不僅實現了常用的機器學習演算法,而且還實現了資料預處理/後處理、資料格式轉換、特徵生成、效能評估等演算法。這些演算法主要是基於Spark實現的。

  • 一個基於gui的Machine Learning Studio系統:允許使用者建立、配置、提交、監視和分享他們的機器學習過程。機器學習庫中的所有演算法都可以在Studio系統中進行訪問和配置。它們是構建機器學習任務的關鍵構件。
    這裡寫圖片描述

  • 執行任務的雲服務。我們基於Hadoop和Spark的開源大資料平臺構建服務。為了構建一個平臺,我們在Docker上組織了一個伺服器叢集。從GUI接收任務DAG後,每個節點將自動排程,在所有依賴資料來源就緒後執行。節點上的演算法會根據它們的實現在Linux、Spark或map - reduce中執行。
    這裡寫圖片描述

如何包含到我的工程?

pull整個專案,並準備一些必要的環境和開發工具。

如何使用Easy Machine Learning Studio

啟動EasyML工程後,訪問:http://localhost:18080/EMLStudio.html,使用賬號[email protected] 密碼: bdaict。推薦使用Chrome開啟。
這裡寫圖片描述
如下圖所示,使用者可以使用頁面左側面板中列出的演算法和資料集建立機器學習任務(dataflow DAG)。可以選擇點選程式和資料面板中列出的演算法和資料集。還可以單擊作業面板,選擇現有任務,克隆它,並進行必要的修改。使用者可以在右側面板中配置每個節點的任務資訊和引數值。任務中的節點可以對應於獨立的Linux程式或執行在Spark或Hadoop map - reduce上的分散式程式。
這裡寫圖片描述


在單擊submit按鈕之後,該任務將提交到雲上執行。每個節點的狀態用不同的顏色表示,如下圖所示。
這裡寫圖片描述
使用者可以右擊完成執行節點的綠色輸出埠預覽輸出資料。可以從每個完成執行節點的右擊選單中檢查stdout和stderr日誌。使用者可以通過右鍵單擊相應的輸出埠來檢查節點的輸出。在執行過程中列印的標準輸出和標準錯誤資訊可以通過右擊相應的節點來檢查,並選擇選單顯示STDOUT和Show STDERR。
這裡寫圖片描述
完成的(無論成功與否)任務可以被進一步修改並重新提交以執行,如下圖所示。我們的系統只會安排受影響的節點執行。未受影響節點的輸出被直接重用,以節省執行時間和系統資源。
這裡寫圖片描述
使用者可以上傳自己的演算法包和資料集,用於建立自己的任務或與其他使用者共享。通過單擊upload program按鈕,彈出視窗允許使用者指定演算法包的必要資訊,包括名稱、類別、描述和命令列模式字串等,如下圖所示。最重要的是用預定義的格式編寫命令列模式字串。它定義了一個節點的輸入埠、輸出埠和引數設定。我們在面板中開發了一個工具,幫助使用者編寫命令列字串模式。通過點選上傳資料按鈕,使用者可以上傳一個類似於上傳演算法包的資料集。
這裡寫圖片描述

相關推薦

開源專案Easy Machine Learning簡介

Easy Machine Learning這個專案是網路資料探勘課上老師團隊做系統,推薦給我們用來做大作業,目前只學了點皮毛,先對專案的簡介進行大概的翻譯。原專案地址 什麼是Easy Machine Learning 機器學習演算法已經成為許多大資料應用的關

spring開源專案簡介

spring 頂級專案: Spring IO platform:用於系統部署,是可整合的,構建現代化應用的版本平臺,具體來說當你使用maven dependency引入spring jar包時它就在工作了。 Spring Boot:旨在簡化建立產品級的 Spring 應用和服務,簡化了配置檔案,

機器學習專案開發過程(End-to-End Machine Learning Project)

引言:之前對於機器學習的認識停留在演算法的分析上,這篇文章主要從專案開發的角度分析機器學習的應用。這篇文章主要解釋實際專案過程中的大致方針,每一步涉及的技術不會介紹很細緻。機器學習專案開發步驟如下: 1. Look at the big picture. 2. Get the dat

二、《Hands-On Machine Learning with Scikit-Learn and TensorFlow》一個完整的機器學習專案

  本章中,你會假裝作為被一家地產公司剛剛僱傭的資料科學家,完整地學習一個案例專案。 下面是主要步驟: 1. 專案概述。 2. 獲取資料。 3. 發現並可視化資料,發現規律。 4. 為機器學習演算法準備資料。 5. 選擇模型,進行訓練。 6. 微調模型。 7. 給出解決方案。 8. 部

國內知名網際網路企業開源專案簡介及Git位置

阿里 阿里的開源專案很多,這也跟@淘寶正明的開源態度密不可分。有很多重量級的專案,例如LVS、Tengine,或者很有實踐價值的中介軟體,例如 MetaQ(分散式訊息系統)、dubbo(RPC框架)、cobar(資料庫中介軟體),或者是Java世界的工具,例如dru

Machine Learning】機器學習及其基礎概念簡介

基本概念:訓練集,測試集,特徵值,監督學習,非監督學習,半監督學習,分類,迴歸 概念學習:人類學習概念:鳥,車,計算機 定義:概念學習是指從有關某個布林函式的輸入輸出訓練樣例中推斷出該布林函式 例子:學習 “享受運動" 這一概念: 小明進行水上運動,是否享受運動取決於很多因素 樣例 天

簡介】利用Arduino和Coolpy設計閘道器 —— 開源專案Coolpy

1. Coolpy簡介 Coolpy是一個開放的通用物聯網服務平臺,主要提供感測器資料的接入、儲存和展現服務;Coolpy是跨平臺的,Coolpy服務端可以執行在Windows、Linux、Mac、Android等主流作業系統,甚至可以執行在openW

18個Angular開源專案簡介

在本文中,我們從550個使用 Angular1.x 和 Angular 2 構建的專案中精選了前18個專案來進行學習。 <Angular 1.x> 使用 NW.js,Node.js,Angular.js 與 Soundcloud API 構建的 Soun

谷歌Cloud Machine Learning平臺簡介

•Cloud Machine Learning處理多種格式的資料 •Cloud Machine Learning與谷歌的各種雲服務聯動,因此開發人員可以採用自己的訓練資料,輕鬆構建預測分析模型,並且在該平臺上訓練自己的

【機器學習入門】Andrew NG《Machine Learning》課程筆記之一 :課程簡介

作為大名鼎鼎Coursera 的創始人之一的斯坦福教授Andrew NG的課程《Machine Learning》是非常好的入門課程,內容淺顯,逐層深入,講解了很多機器學習中的常用概念和技術,最後實現一

跟著Andrew Ng挑戰Machine Learning(第三週)Part 1:邏輯迴歸簡介

注意:   我發現當我在閱讀其他大神&前輩們發表的文章時,往往只有前二十分鐘能夠集中注意力。之後就慢慢的會有些懈怠了,而往往他們付出的心血可能主要就集中在中後半部分⊙﹏⊙‖∣° 。   有鑑於此,我決定以後發的博文儘可能的短。呵呵呵呵呵呵……

Github | 吳恩達新書《Machine Learning Yearning》完整中文版開源

最近開源了周志華老師的西瓜書《機器學習》純手推筆記: 博士筆記 | 周志華《機器學習》手推筆記第一章思維導圖 [博士筆記 | 周志華《機器學習》手推筆記第二章“模型評估與選擇” 博士筆記 | 周志華《機器學習》手推筆記第三章“線性模型” 博士筆記 | 周志華《機器學習》手推筆記

machine learning--L1 ,L2 norm

lan font 更多 ora net 例如 參數 而已 內容   關於L1範數和L2範數的內容和圖示,感覺已經看過千百遍,剛剛看完此大牛博客http://blog.csdn.net/zouxy09/article/details/24971995/,此時此刻終於弄懂了那麽

Ng第十一課:機器學習系統的設計(Machine Learning System Design)

未能 計算公式 pos 構建 我們 行動 mic 哪些 指標 11.1 首先要做什麽 11.2 誤差分析 11.3 類偏斜的誤差度量 11.4 查全率和查準率之間的權衡 11.5 機器學習的數據 11.1 首先要做什麽 在接下來的視頻將談到機器

[Machine Learning (Andrew NG courses)]V. Octave Tutorial (Week 2)

img and learning text net con fonts http .net [Machine Learning (Andrew NG courses)]V. Octave Tutorial (Week 2)

Machine Learning in Action-chapter2-k近鄰算法

turn fma 全部 pytho label -c log eps 數組 一.numpy()函數 1.shape[]讀取矩陣的長度 例: import numpy as np x = np.array([[1,2],[2,3],[3,4]]) print x

Ng第十七課:大規模機器學習(Large Scale Machine Learning)

在線 src 化簡 ima 機器學習 learning 大型數據集 machine cnblogs 17.1 大型數據集的學習 17.2 隨機梯度下降法 17.3 微型批量梯度下降 17.4 隨機梯度下降收斂 17.5 在線學習 17.6 映射化簡和數據並行

Machine Learning:Neural Network---Representation

white div and for 設計 rop out fcm multi Machine Learning:Neural Network---Representation 1。Non-Linear Classification 假設還採取簡

Machine Learning — 關於過度擬合(Overfitting)

機器學習 gis ear http 問題 正則化 數據集 技術 wid 機器學習是在模型空間中選擇最優模型的過程,所謂最優模型,及可以很好地擬合已有數據集,並且正確預測未知數據。 那麽如何評價一個模型的優劣的,用代價函數(Cost function)來度量預測錯誤的程度。代

Machine Learning — 邏輯回歸

url home mage 簡化 bsp 線性 alt 邏輯回歸 sce 現實生活中有很多分類問題,比如正常郵件/垃圾郵件,良性腫瘤/惡性腫瘤,識別手寫字等等,這些可以用邏輯回歸算法來解決。 一、二分類問題 所謂二分類問題,即結果只有兩類,Yes or No,這樣結果{0,