1. 程式人生 > >Apache Mahout中的機器學習演算法集【轉】

Apache Mahout中的機器學習演算法集【轉】

Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一個開源專案,提供一些可擴充套件的機器學習領域經典演算法的實現,旨在幫助開發人員更加方便快捷地建立智慧應用程式,並且,在 Mahout 的最近版本中還加入了對Apache Hadoop 的支援,使這些演算法可以更高效的執行在雲端計算環境中。

在Mahout實現的機器學習演算法見下表:

演算法類

演算法名

中文名

分類演算法

Logistic Regression

邏輯迴歸

Bayesian

貝葉斯

SVM

支援向量機

Perceptron

感知器演算法

Neural Network

神經網路

Random Forests

隨機森林

Restricted Boltzmann Machines

有限波爾茲曼機

聚類演算法

Canopy Clustering

Canopy聚類

K-means Clustering

K均值演算法

Fuzzy K-means

模糊K均值

Expectation Maximization

EM聚類(期望最大化聚類)

Mean Shift Clustering

均值漂移聚類

Hierarchical Clustering

層次聚類

Dirichlet Process Clustering

狄裡克雷過程聚類

Latent Dirichlet Allocation

LDA聚類

Spectral Clustering

譜聚類

關聯規則挖掘

Parallel FP Growth Algorithm

並行FP Growth演算法

迴歸

Locally Weighted Linear Regression

區域性加權線性迴歸

降維/維約簡

Singular Value Decomposition

奇異值分解

Principal Components Analysis

主成分分析

Independent Component Analysis

獨立成分分析

Gaussian Discriminative Analysis

高斯判別分析

進化演算法

並行化了Watchmaker框架

推薦/協同過濾

Non-distributed recommenders

Taste(UserCF, ItemCF, SlopeOne)

Distributed Recommenders

ItemCF

向量相似度計算

RowSimilarityJob

計算列間相似度

VectorDistanceJob

計算向量間距離

非Map-Reduce演算法

Hidden Markov Models

隱馬爾科夫模型

集合方法擴充套件

Collections

擴充套件了java的Collections類

Mahout最大的優點就是基於hadoop實現,把很多以前運行於單機上的演算法,轉化為了MapReduce模式,這樣大大提升了演算法可處理的資料量和處理效能。

相關推薦

Apache Mahout機器學習演算法

Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一個開源專案,提供一些可擴充套件的機器學習領域經典演算法的實現,旨在幫助開發人員更加方便快捷地建立智慧應用程式,並且,在 Mahout 的最近版本中還加入了對Apache Hadoop 的支援,使這些演

機器學習資料

500款各領域機器學習資料集,總有一個是你要找的 金融 美國勞工部統計局官方釋出資料:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 滬深股票除權除息、配股增發全量資料,截止 2016.12.31 http://dataju.c

Step 14: p5.js 程式設計基礎學習1

不知道你是否瞭解過 Processing 語言的家譜(如下圖所示)。與人類語言一樣,程式語言同樣屬於相關語言的家族。而今天,我要引出的,即其家族成員之一的 p5.js(官網)。 Introduction 簡單來講,p5.j​​s 是一個庫配上許多工具

學習的方法

時間 中大 思想 高級 一個 平時 能夠 data body 我主張,在具備基礎之後,學習任何新東西,都要抓住主線,突出重點。對於關鍵理論的學習,要集中精力,速戰速決。而旁枝末節和非本質性的知識內容,完全可以留給實踐去零敲碎打。原因是這樣的,任何一個高級的知識內容,其中都只

linux結構體對齊

src double 無需 fine types 查看 真理 blog 多個 轉自:https://blog.csdn.net/suifengpiao_2011/article/details/47260085 linux中定義對齊字節 typedef struct

C#.snk檔案的作用

 SNK,作為程式字尾的時候,是.net中的強密匙加密檔案! 當你把一個程式集放進GAC(全域性程式集快取)時,就要加強名(也就是簽名),在GAC中的程式集可以被所有程式引用訪問(相當於以前COM元件在登錄檔裡註冊一樣),如果不放進GAC,剛所有使用這個程式集都要複製這個程式集(也就是私有

C++學習 boost學習之-noncopyable

(轉自:https://blog.csdn.net/skdkjzz/article/details/45888727) 用法: 1 私有派生於noncopyable的類都不能複製和賦值 2 原理是:noncopyable內部禁止了賦值和複製 3 該類可以被很好被複用,減少工作量,不用

linux的sh指令碼語法

(轉自:http://tsov.net/sh-script-syntax/) 玩linux都知道sh指令碼的方便,但如何編寫sh指令碼卻是像我這樣的新手和菜鳥的難題。能不能編寫得出來是一回事,了不瞭解又是另一回事。抱著好好學習,天天向上的精神,大家有空就看看吧,沒有壞處的。下面來抄來一大段sh指

MIPI協議學習總結(一)

轉自:https://www.cnblogs.com/EaIE099/p/5200341.html 一、MIPI 簡介:   MIPI(移動行業處理器介面)是Mobile Industry Processor Interface的縮寫。MIPI是MIPI聯盟發起的為移動應用處理器制定的開放標準。 &nb

影象分割程式碼合

原文:http://www.360doc.com/content/12/0201/11/8703626_183332994.shtml Computer Vision Resources Maintained by Jia-Bin Huang Submit resource l

ARM開發經典學習網站推薦

1.  EG3  關於嵌入式開發的站點,提供非常多關於嵌入式開發的資料。包括開發公司,技術文件,免費資源等等。版面包括busses & boards,embedded software,dsp,embedded systems,open source,rtos,embed

SHA1演算法原理

轉自:https://www.cnblogs.com/scu-cjx/p/6878853.html 一.SHA1與MD5差異 SHA1對任意長度明文的預處理和MD5的過程是一樣的,即預處理完後的明文長度是512位的整數倍,但是有一點不同,那就是SHA1的原始報文長度不能超過2的64次方,然後SHA1生成1

linux的strings命令簡介

strings - print the strings of printable characters in files.          意思是, 列印檔案中可列印的字元。  我來補充一下吧, 這個檔案可以是文字檔案(test.c), 可執行檔案(test),  動

運動物體碰撞演算法演示

1,test.js程式碼 var getFlag=function (id) { return document.getElementById(id); //獲取元素引用 } var extend=function(des, src) {

C++訊號量Semaphore和MFC的CSemaphore類使用

信 號量(Semaphore )核心物件對執行緒的同步方式與前面幾種方法不同,它允許多個執行緒在同一時刻訪問同一資源,但是需要限制在同一時刻訪問此資源的最 大執行緒數目。在用CreateSemaphore () 建立訊號量時即要同時指出允許的最大資源計數和當前可用資源計數。一般是將當前可用資源計數設定為最

機器學習演算法-python實現決策樹-Decision tree(1) 資訊熵劃分資料

1.背景          決策書演算法是一種逼近離散數值的分類演算法,思路比較簡單,而且準確率較高。國際權威的學術組織,資料探勘國際會議ICDM (the IEEE International Con

CS231n——機器學習演算法——線性分類(:SVM及其損失函式)

損失函式 Loss function 在線性分類(上)筆記中,定義了從影象畫素值到所屬類別的評分函式(score function),該函式的引數是權重矩陣W。 在函式中,資料 (

機器學習演算法的準確率(Precision)、召回率(Recall)、F值(F-Measure)

資料探勘、機器學習和推薦系統中的評測指標—準確率(Precision)、召回率(Recall)、F值(F-Measure)簡介。 在機器學習、資料探勘、推薦系統完成建模之後,需要對模型的效果做評價。 業內目前常常採用的評價指標有準確率(Precision)、召回率(Recall)、F值(F-

機器學習演算法如何選取超引數 學習速率 正則項係數 minibatch size

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

機器學習演算法實現主成分分析 PCA ——基於python+numpy

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!