Apache Mahout中的機器學習演算法集【轉】
Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一個開源專案,提供一些可擴充套件的機器學習領域經典演算法的實現,旨在幫助開發人員更加方便快捷地建立智慧應用程式,並且,在 Mahout 的最近版本中還加入了對Apache Hadoop 的支援,使這些演算法可以更高效的執行在雲端計算環境中。
在Mahout實現的機器學習演算法見下表:
演算法類 |
演算法名 |
中文名 |
分類演算法 |
Logistic Regression |
邏輯迴歸 |
Bayesian |
貝葉斯 |
|
SVM |
支援向量機 |
|
Perceptron |
感知器演算法 |
|
Neural Network |
神經網路 |
|
Random Forests |
隨機森林 |
|
Restricted Boltzmann Machines |
有限波爾茲曼機 |
|
聚類演算法 |
Canopy Clustering |
Canopy聚類 |
K-means Clustering |
K均值演算法 |
|
Fuzzy K-means |
模糊K均值 |
|
Expectation Maximization |
EM聚類(期望最大化聚類) |
|
Mean Shift Clustering |
均值漂移聚類 |
|
Hierarchical Clustering |
層次聚類 |
|
Dirichlet Process Clustering |
狄裡克雷過程聚類 |
|
Latent Dirichlet Allocation |
LDA聚類 |
|
Spectral Clustering |
譜聚類 |
|
關聯規則挖掘 |
Parallel FP Growth Algorithm |
並行FP Growth演算法 |
迴歸 |
Locally Weighted Linear Regression |
區域性加權線性迴歸 |
降維/維約簡 |
Singular Value Decomposition |
奇異值分解 |
Principal Components Analysis |
主成分分析 |
|
Independent Component Analysis |
獨立成分分析 |
|
Gaussian Discriminative Analysis |
高斯判別分析 |
|
進化演算法 |
並行化了Watchmaker框架 |
|
推薦/協同過濾 |
Non-distributed recommenders |
Taste(UserCF, ItemCF, SlopeOne) |
Distributed Recommenders |
ItemCF |
|
向量相似度計算 |
RowSimilarityJob |
計算列間相似度 |
VectorDistanceJob |
計算向量間距離 |
|
非Map-Reduce演算法 |
Hidden Markov Models |
隱馬爾科夫模型 |
集合方法擴充套件 |
Collections |
擴充套件了java的Collections類 |
Mahout最大的優點就是基於hadoop實現,把很多以前運行於單機上的演算法,轉化為了MapReduce模式,這樣大大提升了演算法可處理的資料量和處理效能。
相關推薦
Apache Mahout中的機器學習演算法集【轉】
Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一個開源專案,提供一些可擴充套件的機器學習領域經典演算法的實現,旨在幫助開發人員更加方便快捷地建立智慧應用程式,並且,在 Mahout 的最近版本中還加入了對Apache Hadoop 的支援,使這些演
機器學習資料集【轉】
500款各領域機器學習資料集,總有一個是你要找的 金融 美國勞工部統計局官方釋出資料:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 滬深股票除權除息、配股增發全量資料,截止 2016.12.31 http://dataju.c
Step 14: p5.js 程式設計基礎學習合集【1】
不知道你是否瞭解過 Processing 語言的家譜(如下圖所示)。與人類語言一樣,程式語言同樣屬於相關語言的家族。而今天,我要引出的,即其家族成員之一的 p5.js(官網)。 Introduction 簡單來講,p5.js 是一個庫配上許多工具
學習的方法【轉】
時間 中大 思想 高級 一個 平時 能夠 data body 我主張,在具備基礎之後,學習任何新東西,都要抓住主線,突出重點。對於關鍵理論的學習,要集中精力,速戰速決。而旁枝末節和非本質性的知識內容,完全可以留給實踐去零敲碎打。原因是這樣的,任何一個高級的知識內容,其中都只
linux中結構體對齊【轉】
src double 無需 fine types 查看 真理 blog 多個 轉自:https://blog.csdn.net/suifengpiao_2011/article/details/47260085 linux中定義對齊字節 typedef struct
C#中.snk檔案的作用【轉】
SNK,作為程式字尾的時候,是.net中的強密匙加密檔案! 當你把一個程式集放進GAC(全域性程式集快取)時,就要加強名(也就是簽名),在GAC中的程式集可以被所有程式引用訪問(相當於以前COM元件在登錄檔裡註冊一樣),如果不放進GAC,剛所有使用這個程式集都要複製這個程式集(也就是私有
C++學習 boost學習之-noncopyable【轉】
(轉自:https://blog.csdn.net/skdkjzz/article/details/45888727) 用法: 1 私有派生於noncopyable的類都不能複製和賦值 2 原理是:noncopyable內部禁止了賦值和複製 3 該類可以被很好被複用,減少工作量,不用
linux中的sh指令碼語法【轉】
(轉自:http://tsov.net/sh-script-syntax/) 玩linux都知道sh指令碼的方便,但如何編寫sh指令碼卻是像我這樣的新手和菜鳥的難題。能不能編寫得出來是一回事,了不瞭解又是另一回事。抱著好好學習,天天向上的精神,大家有空就看看吧,沒有壞處的。下面來抄來一大段sh指
MIPI協議學習總結(一)【轉】
轉自:https://www.cnblogs.com/EaIE099/p/5200341.html 一、MIPI 簡介: MIPI(移動行業處理器介面)是Mobile Industry Processor Interface的縮寫。MIPI是MIPI聯盟發起的為移動應用處理器制定的開放標準。 &nb
影象分割程式碼合集【轉】
原文:http://www.360doc.com/content/12/0201/11/8703626_183332994.shtml Computer Vision Resources Maintained by Jia-Bin Huang Submit resource l
ARM開發經典學習網站推薦【轉】
1. EG3 關於嵌入式開發的站點,提供非常多關於嵌入式開發的資料。包括開發公司,技術文件,免費資源等等。版面包括busses & boards,embedded software,dsp,embedded systems,open source,rtos,embed
SHA1演算法原理【轉】
轉自:https://www.cnblogs.com/scu-cjx/p/6878853.html 一.SHA1與MD5差異 SHA1對任意長度明文的預處理和MD5的過程是一樣的,即預處理完後的明文長度是512位的整數倍,但是有一點不同,那就是SHA1的原始報文長度不能超過2的64次方,然後SHA1生成1
linux中的strings命令簡介【轉】
strings - print the strings of printable characters in files. 意思是, 列印檔案中可列印的字元。 我來補充一下吧, 這個檔案可以是文字檔案(test.c), 可執行檔案(test), 動
運動物體碰撞演算法演示【轉】
1,test.js程式碼 var getFlag=function (id) { return document.getElementById(id); //獲取元素引用 } var extend=function(des, src) {
C++訊號量Semaphore和MFC中的CSemaphore類使用【轉】
信 號量(Semaphore )核心物件對執行緒的同步方式與前面幾種方法不同,它允許多個執行緒在同一時刻訪問同一資源,但是需要限制在同一時刻訪問此資源的最 大執行緒數目。在用CreateSemaphore () 建立訊號量時即要同時指出允許的最大資源計數和當前可用資源計數。一般是將當前可用資源計數設定為最
【機器學習演算法-python實現】決策樹-Decision tree(1) 資訊熵劃分資料集
1.背景 決策書演算法是一種逼近離散數值的分類演算法,思路比較簡單,而且準確率較高。國際權威的學術組織,資料探勘國際會議ICDM (the IEEE International Con
CS231n——機器學習演算法——線性分類(中:SVM及其損失函式)
損失函式 Loss function 在線性分類(上)筆記中,定義了從影象畫素值到所屬類別的評分函式(score function),該函式的引數是權重矩陣W。 在函式中,資料 (
機器學習演算法中的準確率(Precision)、召回率(Recall)、F值(F-Measure)
資料探勘、機器學習和推薦系統中的評測指標—準確率(Precision)、召回率(Recall)、F值(F-Measure)簡介。 在機器學習、資料探勘、推薦系統完成建模之後,需要對模型的效果做評價。 業內目前常常採用的評價指標有準確率(Precision)、召回率(Recall)、F值(F-
機器學習演算法中如何選取超引數 學習速率 正則項係數 minibatch size
分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!  
【機器學習演算法實現】主成分分析 PCA ——基於python+numpy
分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!