史上最全的機器學習資料(上)
原文地址:https://yq.aliyun.com/articles/43089
摘要: 機器學習牽涉的程式語言十分之廣,包括了MATLAB、Python、Clojure、Ruby等等。為了讓開發者更加廣泛、深入地瞭解機器學習,雲棲社群組織翻譯了GitHub Awesome Machine Learning 資源,涵蓋24種程式語言的機器學習的框架、庫以及其他相關資料。
機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。機器學習牽涉的程式語言十分之廣,包括了MATLAB、Julia、R、Perl、Python、Clojure、Ruby等等。目錄
C
通用機器學習
- Recommender- 一個C語言庫,利用協同過濾(CF)進行產品推薦/建議;
- -是一個用C和CUDA編寫的開源神經網路框架,它速度快,易於安裝,並支援CPU和GPU計算。
計算機視覺
語音識別
- HTK-隱馬爾可夫模型工具包(HTK)是一個行動式工具包,用於構建和操作隱馬爾可夫模型。
C++
計算機視覺
- OpenCV-OpenCV自帶C
++、C、Python、Java和MATLAB介面,並支援Windows、Linux、Android版和Mac OS等系統;
- DLib-DLib有C
++和Python介面,用於人臉檢測和訓練通用的目標探測器;
- EBLearn-Eblearn是一種面向物件的C++庫,能夠實現各種機器學習模型;
- VIGRA-VIGRA是通用跨平臺的C++計算機視覺和機器學習庫,能夠用Python繫結任意維度的體積。
通用機器學習
- mlpack-可擴充套件的C++機器學習庫;
- DLib-ML工具套件,能夠很容易嵌入到其他應用程式中;
- shark
- Vowpal
Wabbit (VW)-一個快速的核外(out-of-core)學習系統;
- Shogun-Shogun機器學習工具箱;
- Caffe-基於清潔度、可讀性和速度考慮而開發的深度學習框架。[深度學習]
- CXXNET-另一個深度學習框架,其核心程式碼少於1000行;[深度學習]
- XGBoost-一種並行、優化、通用的梯度推進庫;
- CUDA-利用C++
/ CUDA快速實現卷積;[深度學習]
- Stan-一種概率性的程式語言,能夠實現Hamiltonian
Monte Carlo抽樣的全貝葉斯統計推斷;
- BanditLib-一個簡單、有多重保護的Bandit庫;
- Timbl:一個軟體包/
C ++庫,能夠實現多種基於記憶體的學習演算法,其中有IB1-IG--k-最近鄰分類的實現、IGTree--IB1-IG的決策樹近似值;常用於NLP;
- Disrtibuted
Machine learning Tool Kit (DMTK) -微軟開發的分散式機器學習(引數伺服器)框架,能夠在多臺機器的大型資料集上實現訓練模型,與它捆綁的現有工具包括:LightLDA和分散式(多感測)字嵌入;
- Warp-CTC-在CPU和GPU上快速並行地實現連線時域分類(Connectionist
Temporal Classification,CTC);
- CNTK-微軟研究院開發的計算網路工具包(CNTK),它作為一系列計算步驟,通過有向圖來描述神經網路,是統一的深度學習工具包;
- DeepDetect-一個機器學習API,伺服器用C++11編寫,它使機器學習的狀態易於工作,並容易整合到現有應用程式;
- Fido-一個高度模組化的C++機器學習庫,用於嵌入式電子產品和機器人中。
自然語言處理
- CRF++-條件隨機域(Conditional
Random Fields,CRFs)的開源實現,用於分割/標記序列資料及其他自然語言處理任務;
- CRFsuite-條件隨機域(CRFs)的實現,用於標記序列資料;
- BLLIP
Parser-BLLIP自然語言解析器(也稱為Charniak-Johnson解析器);
- colibri-core-是C++庫、命令列工具,和Python繫結用於提取與使用基本的語言結構,例如用快速和高效儲存的方式實現n-grams和skipgrams模型;
- ucto-是一種工具和C++庫,基於支援各種語言的編譯器,內含統一字元標準及規則表示式;支援FoLiA格式;
- libfolia-支援FoLiA格式的C++庫;
- frog-為Dutch開發的基於記憶體的NLP套件:POS標籤、歸類分析、依存句法分析、NER、淺層句法分析、形態分析;
語音識別
- Kaldi-Kaldi是用於語音識別的工具包,用C++編寫,由Apache許可證V2.0協議授權,專門給語音識別的研究人員使用。
序列分析
- ToPS-這是一種面向物件的框架,便於在使用者定義的字母序列中整合概率模型。
手勢檢測
- grt-手勢識別工具包(GRT)是一個跨平臺、開源的C++機器學習庫,用於實時的手勢識別。
Common Lisp
通用機器學習
Clojure
自然語言處理
- Clojure-openNLP-
Clojure中自然語言處理的工具包(openNLP);
- Infections-clj-
Clojure和Clojure中類似於Rails的inflection庫。
通用機器學習
- Touchstone-
Clojure A/B 測試庫;
- Clojush-
Clojure中的Push程式語言和PushGP遺傳程式設計系統;
- Infer-
Clojure中分析和機器學習的工具;
- Clj-ML-
Clojure中基於Weka及其相關環境的深度學習庫;
- Encog-
在Clojure中封裝成Encog
(v3) (專門研究神經網路的機器學習框架);
- Fungp-
Clojure中的遺傳程式設計例項庫;
- Statistiker-
Clojure中基礎機器學習演算法;
- clortex-採用Numenta’s
Cortical 學習演算法的通用機器學習庫;
- comportex- 採用Numenta’s
Cortical 學習演算法的功能組合的機器學習庫。
資料分析/資料視覺化
- Incanter-
Incanter是基於 Clojure,類似R的統計計算與製圖平臺;
- PigPen-
Clojure中的Map-Reduce;
- Envision- 基於Statistiker和D3Clojure
資料視覺化庫。
Erlang
通用機器學習
- Disco-
Erlang中的Map Reduce模型。
Go
自然語言處理
- go-porterstemmer-
一個用於實現Porter詞幹提取演算法的原生Go語言淨室;
- paicehusk-
Go語言中用於實現Paice/Husk詞幹提取演算法;
- snowball-
Go語言中的Snowball
詞幹提取器;
- go-ngram-記憶體N-gram索引壓縮。
通用機器學習
- Go
Learn-
Go語言中的機器學習庫;
- go-pr-
Go語言中的模式識別包;
- go-ml-
線性/邏輯迴歸、神經網路、協同過濾和多元高斯分佈;
- bayesian-
Go語言中樸素貝葉斯分類庫;
- go-galib-Go語言版的遺傳演算法庫;
- gobrain-
GO語言版的神經網路;
- GoNN-
GoNN 是用Go語言實現的神經網路,它包括BPNN、RBF、PCN;
- MXNet-
輕量級、行動式、靈活的分散式/深度學習系統,可對動態的、突變資料流排程部署,同時也支援Python、R、Julia、Go、Javascript 等程式語言。
資料分析/資料視覺化
Haskell
通用機器學習
- haskell-ml-
Haskell 語言實現的各種深度學習演算法;
- HLearn-
根據代數結構解釋其深度模型的庫;
- hnn-
Haskell語言的神經網路庫;
- hopfield-networks-
Haskell中用於無監督學習的Hopfield網路;
- caffegraph-
一種用於深度神經網路的領域特定語言(DSL);
- LambdaNet-
Haskell中的可配置的神經網路。
Java
自然語言處理
- Cortical.io-
像人腦一樣快速、精確處理複雜的NLP(自然語言處理)操作(如消歧、分類、流文字過濾等操作)的Retina API;
- CoreNLP-
斯坦福大學的CoreNLP提供的一系列的自然語言處理工具,該工具可以根據輸入原始英語文字,給出單詞的基本形式;
- Stanford
Parser-
一種自然語言分析器,可以分析語句的語法結構;
- Tregex,
Tsurgeon and Semgrex- Tregex基於樹關係以及節點匹配的正則表達式,用於在樹狀資料結構中進行模式匹配(名字是“tree
regular expressions”的縮寫);
- Stanford
English Tokenizer- Stanford Phrasal
用Java寫成的最新的基於統計短語的機器翻譯系統;
- Stanford
Tokens Regex-
一個分解器,可以將文字大致分成一系列對應於“詞”的符號;
- Stanford
SPIED-在種子集上使用模式,以迭代方式從無標籤文字中進行學習實體;
- MALLET-基於Java的統計自然語言處理、文件分類、聚類、主題建模、資訊提取以及其他機器學習的文字應用包;
- OpenNLP-
基於機器學習的自然語言文字處理工具包;
- LingPipe-
一個使用計算機語言學文字處理的工具包;
- ClearTK-
在Java中ClearTK為開發統計語言處理元件提供了一個框架,該框架是基於Apache
UIMA;
- Apache cTAKES-
Apache cTAKES是一個開源自然語言處理系統,用於從臨床電子病歷的自由文字中提取資訊;
- ClearNLP-
ClearNLP工程為自然語言處理提供了軟體和資源提供了。該專案最早在計算機癒合和教育研究中心啟動,目前由Emory
大學的語言和資訊研究中心繼續開發。該專案遵循Apache 2license。
通用機器學習
- aerosolve-
是由Airbnb設計的定價建議系統的機器學習庫;
- Datumbox-應對機器學習和統計應用快速發展的機器學習框架;
- ELKI-
用於資料探勘的Java工具包(無監督:聚類、異常檢測等等);
- Encog-
一種先進的神經網路和機器學習框架。 Encog包含用於建立各類網路的類,同時也支援為神經網路規範和處理資料的類。它的訓練採用多執行緒彈性傳播。它也能使用GPU加快處理時間。提供了圖形化介面來幫助建模和訓練神經網路。
- EvA2-
包含遺傳演算法、差分進化、協方差自適應進化策略等等的進化演算法框架;
- H2O-
深度學習引擎,支援在Hadoop、Spark 或者通過R、Python、Scala 、REST/JSONML 的APIs連到的筆記本上進行分散式學習;
- htm.java-
相關推薦
史上最全的機器學習資料(下)
原文地址:https://yq.aliyun.com/articles/43341 摘要: 機器學習牽涉的程式語言十分之廣,包括了MATLAB、Python、Clojure、Ruby等等。為了讓開發者更加廣泛、深入地瞭解機器學習,雲棲社群組織翻譯了GitHub Aw
史上最全的機器學習資料(上)
原文地址:https://yq.aliyun.com/articles/43089 摘要: 機器學習牽涉的程式語言十分之廣,包括了MATLAB、Python、Clojure、Ruby等等。為了讓開發者更加廣泛、深入地瞭解機器學習,雲棲社群組織翻譯了GitHub
史上最全機器學習資源整理
機器學習資源浩如煙海,本文對機器學習資源做了相關整理,希望大家能夠根據自己的細分研究領域,著重關注某些學習資源。可能某幾個網頁連結打不開,那說明需要“科學”上網。 機器學習也是一門實踐學科,最好的學習就是不斷的實踐,推薦 BigQuant 人工智慧量化投資 一站式的python+機器學習
Vue2.0史上最全入坑教程(下)—— 實戰案例
多少 跳轉 border src fff end har second vue 前言:經過前兩節的學習,我們已經可以創建一個vue工程了。下面我們將一起來學習制作一個簡單的實戰案例。 說明:默認我們已經用vue-cli(vue腳手架或稱前端自動化構建工具)創建好項目了 一
史上最全的“大資料”學習資源(上)
資源列表: 關係資料庫管理系統(RDBMS) 框架 分散式程式設計 分散式檔案系統 檔案資料模型 Key -Map 資料模型 鍵-值資料模型 圖形資料模型 NewSQL資料庫 列式資料庫 時間序列資料庫 類SQL處理 資料攝取 服務程式設計
最全的國外機器學習資源(上)
一、C++ 計算機視覺 CCV—基於C語言/提供快取/核心的機器視覺庫,新穎的機器視覺庫 OpenCV—它提供C++、C、Python、Java以及MATLAB介面,並支援Windows、Linux、Android和Mac OS作業系統 OPENCV網址 通用機器學習 MLPack MLPCACK網
收藏!超全機器學習資料合集!(附下載)
最近在群裡發現一些小夥伴在尋找資料的時候總是無處可找,網上出現很多收集免費資料再去打包收錢的人,我看不慣這樣的人,所以把自己收集的檔案分享給大家。 百度雲經常抽風,如果大家遇到了失效的連結,請在評論區給我評論,我會很快的更新。 1:資料探勘:概念與技術(中文第三版) 連結: https
史上最強----機器學習經典總結---入門必讀----心血總結-----回味無窮
在本篇文章中,我將對機器學習做個概要的介紹。本文的目的是能讓即便完全不瞭解機器學習的人也能瞭解機器學習,並且上手相關的實踐。這篇文件也算是EasyPR開發的番外篇,從這裡開始,必須對機器學習瞭解才能進一步介紹EasyPR的核心。當然,本文也面對一般讀者,不會對閱讀有相關的前提要求。 在進入正
史上最全TensorFlow學習資源彙總
▌一 、TensorFlow教程資源 1)適合初學者的TensorFlow教程和程式碼示例: 該教程不光提供了一些經典的資料集,更是從實現最簡單的“Hello World”開始,到機器學習的經典演算法,再到神經網路的常用模型,一步步帶你從入門到精通,是初學
史上最全Java學習內容
前端部分: 1)HTML:網頁的核心語言,構成網頁的基礎 2)CSS:使網頁更加豐富多彩燦爛的利器 3)JavaScript:使網頁動起來的根本,加強了網頁和使用者之間的互動 4)HTML DOM:換一種更加形象化的角度來看待網頁,讓我們更加方便的控制網頁 5)HTML BOM:
25個GitHub上最受歡迎的趣味機器學習專案(下)!
ParlAI 作為Facebook研究專案的一部分,ParlAI是一個用於在各種公開可用的對話資料集上訓練和評估AI模型的框架。 ParlAI將為研究人員提供訪問許多流行資料集的許可權,同時擁有用於共享和測試對話模型的統一框架。 您可以在這裡閱讀更多關於ParlAI的
25個GitHub上最受歡迎的趣味機器學習專案(上)!
在過去的幾年裡,機器學習開闢了廣泛行業的新視野,出現了先進的用例:面部識別—Facebook的面部識別,Netflix的電影推薦,PrimaAI的影象樣式轉換,Siri的語音識別,Google Allo的自然語言處理等等。 除了這些用例外,還有大量在GitHub上託管的開源機器學習專案。 以下是
史上最全Java面試題(帶全部答案)
轉載:https://blog.csdn.net/linzhiqiang0316/article/details/80473906 今天要談的主題是關於求職,求
史上最全的BeautifulSoup解析(基本選擇器,標準選擇器,css選擇器)
#寫在前面基本使用html = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"
史上最全的Python資料大放送,你敢來我就敢送!
基礎入門類 《Python簡明教程》:這是一本只有100頁左右的小冊子,你可以迅速的瀏覽並敲一遍程式碼,或多或少都會提升你的Python基礎能力; 《笨方法學Python》:這本書同樣非常的短小精悍,全書是以習題的形式讓讀者掌握有關Python的基礎知識,裡面的程式碼建議讀者能夠敲一遍;
史上最全Java面試題(帶全部答案,你可能要收藏!)
原文地址:前幾天,有朋友去面試之前問我關於後端架構相關的問題,但奈於我去年更多的工作是在移動SDK開發上,對此有所遺忘,實屬無奈,後面準備總結下.今天要談的主題是關於求職.求職是在每個技術人員的生涯中都要經歷多次,對於我們大部分人而言,在進入自己心儀的公司之前少不了準備工作,
(轉)史上最全人工智慧產品清單(1/3)
「翻譯」史上最全人工智慧產品清單(1/3) 來源:https://zhuanlan.zhihu.com/p/27741586 1 天前 簡評: 這篇文章簡直就是史上最全 B2C 領域 AI 產品名單!部分內容有刪減。作者列舉了很多目前市面上能看到的人工智慧
史上最強Java學習路線(詳解)
Java是一個通用的程式語言,其實可以幹很多事,怎麼學Java就看怎麼用了,但有一些一般的步驟: 熟悉一種文字編輯器,比如:Vim, Emacs, Notepad++, TextMate等。知道哪些是開源的,哪些是閉源的,哪些要收費。養成不用盜版軟體的習慣。 安裝
史上最全IO框架五(緩衝流)
IO之緩衝流 課程大綱 一、 緩衝流概述 1、 首先要明確一個概念:對檔案或者其他目標頻繁的操作,效率低,效能差。 2、 使用緩衝流的好處是能夠更高效的讀寫資訊,原理是現將資料緩衝起來,然後一起寫入或者讀取出來。 二、 BufferedInpu
最全的國外機器學習資源(下)
集齊上下兩篇,可召喚神龍哦~ 為看官奉上機器學習資源——下篇。 最牛B的框架、庫和軟體,至此終於收齊啦! _________________________________________________________________ 一、Matlab 計