1. 程式人生 > >史上最全的機器學習資料(上)

史上最全的機器學習資料(上)

原文地址:https://yq.aliyun.com/articles/43089

摘要: 機器學習牽涉的程式語言十分之廣,包括了MATLAB、Python、Clojure、Ruby等等。為了讓開發者更加廣泛、深入地瞭解機器學習,雲棲社群組織翻譯了GitHub Awesome Machine Learning 資源,涵蓋24種程式語言的機器學習的框架、庫以及其他相關資料。

機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。機器學習牽涉的程式語言十分之廣,包括了MATLAB、Julia、R、Perl、Python、Clojure、Ruby等等。
為了讓開發者更加廣泛、深入地瞭解機器學習,雲棲社群組織翻譯了GitHub Awesome Machine Learning 資源,涵蓋24種程式語言的機器學習的框架、庫以及其他相關資料。

目錄

C

通用機器學習

  • Recommender一個C語言庫,利用協同過濾(CF)進行產品推薦/建議;
  •  -是一個用C和CUDA編寫的開源神經網路框架,它速度快,易於安裝,並支援CPU和GPU計算。

計算機視覺

  • CCV -基於C語言、快取記憶體的核計算機視覺庫,是一個現代化的計算機視覺庫;
  • VLFeat -開放、可便攜的計算機視覺演算法庫,內有matlab工具箱。

語音識別

  • HTK-隱馬爾可夫模型工具包(HTK)是一個行動式工具包,用於構建和操作隱馬爾可夫模型。

C++

計算機視覺

  • OpenCV-OpenCV自帶C ++、C、Python、Java和MATLAB介面,並支援Windows、Linux、Android版和Mac OS等系統;
  • DLib-DLib有C ++和Python介面,用於人臉檢測和訓練通用的目標探測器;
  • EBLearn-Eblearn是一種面向物件的C++庫,能夠實現各種機器學習模型;
  • VIGRA-VIGRA是通用跨平臺的C++計算機視覺和機器學習庫,能夠用Python繫結任意維度的體積。

通用機器學習

  • mlpack-可擴充套件的C++機器學習庫;
  • DLib-ML工具套件,能夠很容易嵌入到其他應用程式中;
  • shark
  • Vowpal Wabbit (VW)-一個快速的核外out-of-core學習系統;
  • Shogun-Shogun機器學習工具箱;
  • Caffe-基於清潔度、可讀性和速度考慮而開發的深度學習框架。[深度學習]
  • CXXNET-另一個深度學習框架,其核心程式碼少於1000行;[深度學習]
  • XGBoost-一種並行、優化、通用的梯度推進庫;
  • CUDA-利用C++ / CUDA快速實現卷積;[深度學習]
  • Stan-一種概率性的程式語言,能夠實現Hamiltonian Monte Carlo抽樣的全貝葉斯統計推斷;
  • BanditLib-一個簡單、有多重保護的Bandit庫;
  • Timbl:一個軟體包/ C ++庫,能夠實現多種基於記憶體的學習演算法,其中有IB1-IG--k-最近鄰分類的實現、IGTree--IB1-IG的決策樹近似值;常用於NLP;
  • Disrtibuted Machine learning Tool Kit (DMTK) -微軟開發的分散式機器學習(引數伺服器)框架,能夠在多臺機器的大型資料集上實現訓練模型,與它捆綁的現有工具包括:LightLDA和分散式(多感測)字嵌入;
  • Warp-CTC-在CPU和GPU上快速並行地實現連線時域分類(Connectionist Temporal ClassificationCTC);
  • CNTK-微軟研究院開發的計算網路工具包(CNTK),它作為一系列計算步驟,通過有向圖來描述神經網路,是統一的深度學習工具包;
  • DeepDetect-一個機器學習API,伺服器用C++11編寫,它使機器學習的狀態易於工作,並容易整合到現有應用程式;
  • Fido-一個高度模組化的C++機器學習庫,用於嵌入式電子產品和機器人中。

自然語言處理

  • CRF++-條件隨機域(Conditional Random FieldsCRFs)的開源實現,用於分割/標記序列資料及其他自然語言處理任務;
  • CRFsuite-條件隨機域(CRFs)的實現,用於標記序列資料;
  • BLLIP Parser-BLLIP自然語言解析器(也稱為Charniak-Johnson解析器);
  • colibri-core-是C++庫、命令列工具,和Python繫結用於提取與使用基本的語言結構,例如用快速和高效儲存的方式實現n-gramsskipgrams模型;
  • ucto-是一種工具和C++庫,基於支援各種語言的編譯器,內含統一字元標準及規則表示式;支援FoLiA格式;
  • libfolia-支援FoLiA格式的C++庫;
  • frog-Dutch開發的基於記憶體的NLP套件:POS標籤、歸類分析、依存句法分析、NER、淺層句法分析、形態分析;

語音識別

  • Kaldi-Kaldi是用於語音識別的工具包,用C++編寫,由Apache許可證V2.0協議授權,專門給語音識別的研究人員使用。

序列分析

  • ToPS-這是一種面向物件的框架,便於在使用者定義的字母序列中整合概率模型。

手勢檢測

  • grt-手勢識別工具包(GRT)是一個跨平臺、開源的C++機器學習庫,用於實時的手勢識別。

Common Lisp

通用機器學習

  • mgl-神經網路(玻耳茲曼機,前饋和迴圈網路)以及高斯過程;
  • cl-libsvm-LIBSVM支援向量機庫的包裝。

Clojure

自然語言處理

  • Clojure-openNLP- Clojure中自然語言處理的工具包(openNLP);
  • Infections-clj- Clojure和Clojure中類似於Rails的inflection庫。

通用機器學習

  • Touchstone- Clojure A/B 測試庫;
  • Clojush- Clojure中的Push程式語言和PushGP遺傳程式設計系統
  • Infer- Clojure中分析和機器學習的工具;
  • Clj-ML- Clojure中基於Weka及其相關環境的深度學習庫;
  • Encog- Clojure中封裝成Encog (v3) (專門研究神經網路的機器學習框架);
  • Fungp-  Clojure中的遺傳程式設計例項庫;
  • Statistiker- Clojure中基礎機器學習演算法;
  • clortex-採用Numenta’s Cortical 學習演算法的通用機器學習庫;
  • comportex- 採用Numenta’s Cortical 學習演算法的功能組合的機器學習庫。

資料分析/資料視覺化

  • Incanter- Incanter是基於 Clojure,類似R的統計計算與製圖平臺
  • PigPen-  Clojure中的Map-Reduce;
  • Envision基於StatistikerD3Clojure 資料視覺化庫。

Erlang

通用機器學習

  • Disco-  Erlang中的Map Reduce模型。

Go

自然語言處理

  • go-porterstemmer- 一個用於實現Porter詞幹提取演算法的原生Go語言淨室;
  • paicehusk- Go語言中用於實現Paice/Husk詞幹提取演算法;
  • snowball- Go語言中的Snowball 詞幹提取器;
  • go-ngram-記憶體N-gram索引壓縮

通用機器學習

  • Go Learn- Go語言中的機器學習庫;
  • go-pr- Go語言中的模式識別包;
  • go-ml- 線性/邏輯迴歸、神經網路、協同過濾和多元高斯分佈;
  • bayesian- Go語言中樸素貝葉斯分類庫;
  • go-galib-Go語言版的遺傳演算法庫;
  • gobrain- GO語言版的神經網路;
  • GoNN- GoNN 是用Go語言實現的神經網路,它包括BPNN、RBF、PCN
  • MXNet- 輕量級、行動式、靈活的分散式/深度學習系統,可對動態的、突變資料流排程部署,同時也支援Python、R、Julia、Go、Javascript 等程式語言。

資料分析/資料視覺化

  • SVGo- Go語言的SVG生成庫;
  • RF- Go語言的隨機森林庫;

Haskell

通用機器學習

  • haskell-ml- Haskell 語言實現的各種深度學習演算法
  • HLearn- 根據代數結構解釋其深度模型的庫;
  • hnn- Haskell語言的神經網路庫;
  • hopfield-networks- Haskell中用於無監督學習的Hopfield網路;
  • caffegraph- 一種用於深度神經網路的領域特定語言(DSL);
  • LambdaNet- Haskell中的可配置的神經網路。

Java

自然語言處理

  • Cortical.io- 像人腦一樣快速、精確處理複雜的NLP(自然語言處理)操作(如消歧、分類、流文字過濾等操作)的Retina API;
  • CoreNLP- 斯坦福大學的CoreNLP提供的一系列的自然語言處理工具,該工具可以根據輸入原始英語文字,給出單詞的基本形式;
  • Stanford Parser- 種自然語言分析器,可以分析語句的語法結構;
  • Tregex, Tsurgeon and Semgrex- Tregex基於樹關係以及節點匹配的正則表達式,用於在樹狀資料結構中進行模式匹配(名字是“tree regular expressions”的縮寫)
  • Stanford English Tokenizer- Stanford Phrasal 用Java寫成的最新的基於統計短語的機器翻譯系統;
  • Stanford Tokens Regex- 一個分解器,可以將文字大致分成一系列對應於“詞”的符號;
  • Stanford SPIED-在種子集上使用模式,以迭代方式從無標籤文字中進行學習實體;
  • MALLET-基於Java的統計自然語言處理、文件分類、聚類、主題建模、資訊提取以及其他機器學習的文字應用包;
  • OpenNLP- 基於機器學習的自然語言文字處理工具包;
  • LingPipe- 一個使用計算機語言學文字處理的工具包;
  • ClearTK- 在Java中ClearTK為開發統計語言處理元件提供了一個框架,該框架是基於Apache UIMA
  • Apache cTAKES- Apache cTAKES是一個開源自然語言處理系統,用於從臨床電子病歷的自由文字中提取資訊;
  • ClearNLP- ClearNLP工程為自然語言處理提供了軟體和資源提供了。該專案最早在計算機癒合和教育研究中心啟動,目前由Emory 大學的語言和資訊研究中心繼續開發。該專案遵循Apache 2license

通用機器學習

  • aerosolve- 是由Airbnb設計的定價建議系統的機器學習庫;
  • Datumbox-應對機器學習和統計應用快速發展的機器學習框架;
  • ELKI- 用於資料探勘的Java工具包(無監督:聚類、異常檢測等等)
  • Encog- 一種先進的神經網路和機器學習框架。 Encog包含用於建立各類網路的類,同時也支援為神經網路規範和處理資料的類。它的訓練採用多執行緒彈性傳播。它也能使用GPU加快處理時間。提供了圖形化介面來幫助建模和訓練神經網路。
  • EvA2- 包含遺傳演算法、差分進化、協方差自適應進化策略等等的進化演算法框架;
  • H2O- 深度學習引擎,支援在Hadoop、Spark 或者通過R、Python、Scala 、REST/JSONML 的APIs連到的筆記本上進行分散式學習;
  • htm.java-

    相關推薦

    機器學習資料

    原文地址:https://yq.aliyun.com/articles/43341 摘要: 機器學習牽涉的程式語言十分之廣,包括了MATLAB、Python、Clojure、Ruby等等。為了讓開發者更加廣泛、深入地瞭解機器學習,雲棲社群組織翻譯了GitHub Aw

    機器學習資料

    原文地址:https://yq.aliyun.com/articles/43089 摘要: 機器學習牽涉的程式語言十分之廣,包括了MATLAB、Python、Clojure、Ruby等等。為了讓開發者更加廣泛、深入地瞭解機器學習,雲棲社群組織翻譯了GitHub

    機器學習資源整理

    機器學習資源浩如煙海,本文對機器學習資源做了相關整理,希望大家能夠根據自己的細分研究領域,著重關注某些學習資源。可能某幾個網頁連結打不開,那說明需要“科學”上網。 機器學習也是一門實踐學科,最好的學習就是不斷的實踐,推薦 BigQuant 人工智慧量化投資 一站式的python+機器學習

    Vue2.0入坑教程—— 實戰案例

    多少 跳轉 border src fff end har second vue 前言:經過前兩節的學習,我們已經可以創建一個vue工程了。下面我們將一起來學習制作一個簡單的實戰案例。 說明:默認我們已經用vue-cli(vue腳手架或稱前端自動化構建工具)創建好項目了 一

    的“大資料學習資源

    資源列表:   關係資料庫管理系統(RDBMS)   框架   分散式程式設計   分散式檔案系統   檔案資料模型   Key -Map 資料模型   鍵-值資料模型   圖形資料模型   NewSQL資料庫   列式資料庫   時間序列資料庫   類SQL處理   資料攝取   服務程式設計

    的國外機器學習資源

    一、C++ 計算機視覺 CCV—基於C語言/提供快取/核心的機器視覺庫,新穎的機器視覺庫 OpenCV—它提供C++、C、Python、Java以及MATLAB介面,並支援Windows、Linux、Android和Mac OS作業系統 OPENCV網址 通用機器學習 MLPack    MLPCACK網

    收藏!超機器學習資料合集!附下載

    最近在群裡發現一些小夥伴在尋找資料的時候總是無處可找,網上出現很多收集免費資料再去打包收錢的人,我看不慣這樣的人,所以把自己收集的檔案分享給大家。 百度雲經常抽風,如果大家遇到了失效的連結,請在評論區給我評論,我會很快的更新。 1:資料探勘:概念與技術(中文第三版) 連結: https

    強----機器學習經典總結---入門必讀----心血總結-----回味無窮

    在本篇文章中,我將對機器學習做個概要的介紹。本文的目的是能讓即便完全不瞭解機器學習的人也能瞭解機器學習,並且上手相關的實踐。這篇文件也算是EasyPR開發的番外篇,從這裡開始,必須對機器學習瞭解才能進一步介紹EasyPR的核心。當然,本文也面對一般讀者,不會對閱讀有相關的前提要求。   在進入正

    TensorFlow學習資源彙總

    ▌一 、TensorFlow教程資源 1)適合初學者的TensorFlow教程和程式碼示例: 該教程不光提供了一些經典的資料集,更是從實現最簡單的“Hello World”開始,到機器學習的經典演算法,再到神經網路的常用模型,一步步帶你從入門到精通,是初學

    Java學習內容

    前端部分: 1)HTML:網頁的核心語言,構成網頁的基礎 2)CSS:使網頁更加豐富多彩燦爛的利器 3)JavaScript:使網頁動起來的根本,加強了網頁和使用者之間的互動 4)HTML DOM:換一種更加形象化的角度來看待網頁,讓我們更加方便的控制網頁 5)HTML BOM:

    25個GitHub受歡迎的趣味機器學習專案

    ParlAI 作為Facebook研究專案的一部分,ParlAI是一個用於在各種公開可用的對話資料集上訓練和評估AI模型的框架。   ParlAI將為研究人員提供訪問許多流行資料集的許可權,同時擁有用於共享和測試對話模型的統一框架。 您可以在這裡閱讀更多關於ParlAI的

    25個GitHub受歡迎的趣味機器學習專案

    在過去的幾年裡,機器學習開闢了廣泛行業的新視野,出現了先進的用例:面部識別—Facebook的面部識別,Netflix的電影推薦,PrimaAI的影象樣式轉換,Siri的語音識別,Google Allo的自然語言處理等等。 除了這些用例外,還有大量在GitHub上託管的開源機器學習專案。 以下是

    Java面試題帶全部答案

    轉載:https://blog.csdn.net/linzhiqiang0316/article/details/80473906 今天要談的主題是關於求職,求

    的BeautifulSoup解析基本選擇器,標準選擇器,css選擇器

    #寫在前面基本使用html = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"

    的Python資料大放送,你敢來我就敢送!

    基礎入門類 《Python簡明教程》:這是一本只有100頁左右的小冊子,你可以迅速的瀏覽並敲一遍程式碼,或多或少都會提升你的Python基礎能力; 《笨方法學Python》:這本書同樣非常的短小精悍,全書是以習題的形式讓讀者掌握有關Python的基礎知識,裡面的程式碼建議讀者能夠敲一遍;

    Java面試題帶全部答案,你可能要收藏!

    原文地址:前幾天,有朋友去面試之前問我關於後端架構相關的問題,但奈於我去年更多的工作是在移動SDK開發上,對此有所遺忘,實屬無奈,後面準備總結下.今天要談的主題是關於求職.求職是在每個技術人員的生涯中都要經歷多次,對於我們大部分人而言,在進入自己心儀的公司之前少不了準備工作,

    人工智慧產品清單1/3

    「翻譯」史上最全人工智慧產品清單(1/3) 來源:https://zhuanlan.zhihu.com/p/27741586 1 天前 簡評: 這篇文章簡直就是史上最全 B2C 領域 AI 產品名單!部分內容有刪減。作者列舉了很多目前市面上能看到的人工智慧

    強Java學習路線詳解

    Java是一個通用的程式語言,其實可以幹很多事,怎麼學Java就看怎麼用了,但有一些一般的步驟: 熟悉一種文字編輯器,比如:Vim, Emacs, Notepad++, TextMate等。知道哪些是開源的,哪些是閉源的,哪些要收費。養成不用盜版軟體的習慣。 安裝

    IO框架五緩衝流

    IO之緩衝流 課程大綱 一、 緩衝流概述 1、 首先要明確一個概念:對檔案或者其他目標頻繁的操作,效率低,效能差。 2、 使用緩衝流的好處是能夠更高效的讀寫資訊,原理是現將資料緩衝起來,然後一起寫入或者讀取出來。 二、 BufferedInpu

    的國外機器學習資源

    集齊上下兩篇,可召喚神龍哦~ 為看官奉上機器學習資源——下篇。 最牛B的框架、庫和軟體,至此終於收齊啦! _________________________________________________________________ 一、Matlab 計