1. 程式人生 > >近200篇機器學習&深度學習資料分享

近200篇機器學習&深度學習資料分享

作者:廖君來源:github.com|2015-01-20 11:35

沙龍活動 | 3月31日 京東、微博、華為實戰專家與你共同探討容器技術實踐!


編者按:本文收集了百來篇關於機器學習和深度學習的資料,含各種文件,視訊,原始碼等。而且原文也會不定期的更新,望看到文章的朋友能夠學到更多。

《Brief History of Machine Learning》

介紹:這是一篇介紹機器學習歷史的文章,介紹很全面,從感知機、神經網路、決策樹、SVM、Adaboost 到隨機森林、Deep Learning.

《Deep Learning in Neural Networks: An Overview》

介紹:這是瑞士人工智慧實驗室 Jurgen Schmidhuber 寫的最新版本《神經網路與深度學習綜述》本綜述的特點是以時間排序,從 1940 年開始講起,到 60-80 年代,80-90 年代,一直講到 2000 年後及最近幾年的進展。涵蓋了 deep learning 裡各種 tricks,引用非常全面.

《A Gentle Introduction to Scikit-Learn: A Python Machine Learning Library》

介紹:這是一份 python 機器學習庫,如果您是一位 python 工程師而且想深入的學習機器學習.那麼這篇文章或許能夠幫助到你.

《How to Layout and Manage Your Machine Learning Project》

介紹:這一篇介紹如果設計和管理屬於你自己的機器學習專案的文章,裡面提供了管理模版、資料管理與實踐方法.

《Machine Learning is Fun!》

介紹:如果你還不知道什麼是機器學習,或則是剛剛學習感覺到很枯燥乏味。那麼推薦一讀。這篇文章已經被翻譯成中文,如果有興趣可以移步 http://blog.jobbole.com/67616/

《R語言參考卡片》

介紹:R語言是機器學習的主要語言,有很多的朋友想學習R語言,但是總是忘記一些函式與關鍵字的含義。那麼這篇文章或許能夠幫助到你

《Choosing a Machine Learning Classifier》

介紹:我該如何選擇機器學習演算法,這篇文章比較直觀的比較了 Naive Bayes,Logistic Regression,SVM,決策樹等方法的優劣,另外討論了樣本大小、Feature 與 Model 權衡等問題。此外還有已經翻譯了的版本:

http://www.52ml.net/15063.html

《An Introduction to Deep Learning: From Perceptrons to Deep Networks》

介紹:深度學習概述:從感知機到深度網路,作者對於例子的選擇、理論的介紹都很到位,由淺入深。翻譯版本:http://www.cnblogs.com/xiaowanyer/p/3701944.html

《The LION Way: Machine Learning plus Intelligent Optimization》

介紹:<機器學習與優化>這是一本機器學習的小冊子, 短短 300 多頁道盡機器學習的方方面面. 圖文並茂, 生動易懂, 沒有一坨坨公式的煩惱. 適合新手入門打基礎, 也適合老手溫故而知新. 比起 MLAPP/PRML 等大部頭, 也許這本你更需要!具體內容推薦閱讀:http://intelligent-optimization.org/LIONbook/

《深度學習與統計學習理論》

介紹:作者是來自百度,不過他本人已經在 2014 年 4 月份申請離職了。但是這篇文章很不錯如果你不知道深度學習與支援向量機/統計學習理論有什麼聯絡?那麼應該立即看看這篇文章.

《電腦科學中的數學》

介紹:這本書是由谷歌公司和 MIT 共同出品的電腦科學中的數學:Mathematics for Computer Science,Eric Lehman et al 2013 。分為 5 大部分:1)證明,歸納。2)結構,數論,圖。3)計數,求和,生成函式。4)概率,隨機行走。5)遞迴。等等

《資訊時代的電腦科學理論(Foundations of Data Science)》

介紹:資訊時代的電腦科學理論,目前國內有紙質書購買,iTunes 購買

《Data Science with R》

介紹:這是一本由雪城大學新編的第二版《資料科學入門》教材:偏實用型,淺顯易懂,適合想學習R語言的同學選讀。

《Twenty Questions for Donald Knuth》

介紹:這並不是一篇文件或書籍。這是篇向圖靈獎得主 Donald Knuth 提問記錄稿: 近日, Charles Leiserson, Al Aho, Jon Bentley 等大神向 Knuth 提出了 20 個問題,內容包括 TAOCP,P/NP 問題,圖靈機,邏輯,以及為什麼大神不用電郵等等。

《Automatic Construction and Natural-Language Description of Nonparametric Regression Models》

介紹:不會統計怎麼辦?不知道如何選擇合適的統計模型怎麼辦?那這篇文章你的好好讀一讀了麻省理工 Joshua B. Tenenbaum 和劍橋 Zoubin Ghahramani 合作,寫了一篇關於 automatic statistician 的文章。可以自動選擇迴歸模型類別,還能自動寫報告...

《ICLR 2014 論文集》

介紹:對深度學習和 representation learning 最新進展有興趣的同學可以瞭解一下

《Introduction to Information Retrieval》

介紹:這是一本資訊檢索相關的書籍,是由斯坦福 Manning 與谷歌副總裁 Raghavan 等合著的 Introduction to Information Retrieval 一直是北美最受歡迎的資訊檢索教材之一。最近作者增加了該課程的幻燈片和作業。IR 相關資源:http://www-nlp.stanford.edu/IR-book/information-retrieval.html

《Machine learning in 10 pictures》

介紹:Deniz Yuret 用 10 張漂亮的圖來解釋機器學習重要概念:1. Bias/Variance Tradeoff 2. Overfitting 3. Bayesian / Occam's razor 4. Feature combination 5. Irrelevant feature 6. Basis function 7. Discriminative / Generative 8. Loss function 9. Least squares 10. Sparsity. 很清晰

《雅虎研究院的資料集彙總》

介紹:雅虎研究院的資料集彙總: 包括語言類資料,圖與社交類資料,評分與分類資料,計算廣告學資料,影象資料,競賽資料,以及系統類的資料。

《An Introduction to Statistical Learning with Applications in R》

介紹:這是一本斯坦福統計學著名教授 Trevor Hastie 和 Robert Tibshirani 的新書,並且在 2014 年一月已經開課:https://class.stanford.edu/courses/HumanitiesScience/StatLearning/Winter2014/about

Best Machine Learning Resources for Getting Started

介紹:機器學習最佳入門學習資料彙總是專為機器學習初學者推薦的優質學習資源,幫助初學者快速入門。而且這篇文章的介紹已經被翻譯成中文版。如果你不怎麼熟悉,那麼我建議你先看一看中文的介紹。

My deep learning reading list

介紹:主要是順著 Bengio 的 PAMI review 的文章找出來的。包括幾本綜述文章,將近 100 篇論文,各位山頭們的 Presentation。全部都可以在 google 上找到。

Cross-Language Information Retrieval

介紹:這是一本書籍,主要介紹的是跨語言資訊檢索方面的知識。理論很多

探索推薦引擎內部的祕密,第 1 部分: 推薦引擎初探

介紹:本文共有三個系列,作者是來自 IBM 的工程師。它主要介紹了推薦引擎相關演算法,並幫助讀者高效的實現這些演算法。探索推薦引擎內部的祕密,第 2 部分: 深度推薦引擎相關演算法 - 協同過濾,探索推薦引擎內部的祕密,第 3 部分: 深度推薦引擎相關演算法 - 聚類

《Advice for students of machine learning》

介紹:康奈爾大學資訊科學系助理教授 David Mimno 寫的《對機器學習初學者的一點建議》, 寫的挺實際,強調實踐與理論結合,最後還引用了馮 · 諾依曼的名言: "Young man, in mathematics you don't understand things. You just get used to them."

分散式並行處理的資料

介紹:這是一本關於分散式並行處理的資料《Explorations in Parallel Distributed Processing: A Handbook of Models, Programs, and Exercises》,作者是斯坦福的 James L. McClelland。著重介紹了各種神級網路演算法的分散式實現,做 Distributed Deep Learning 的童鞋可以參考下

《“機器學習”是什麼?》

介紹:【“機器學習”是什麼?】John Platt 是微軟研究院傑出科學家,17 年來他一直在機器學習領域耕耘。近年來機器學習變得炙手可熱,Platt 和同事們遂決定開設部落格,向公眾介紹機器學習的研究進展。機器學習是什麼,被應用在哪裡?來看 Platt 的這篇博文

《2014 年國際機器學習大會 ICML 2014 論文》

介紹:2014 年國際機器學習大會(ICML)已經於 6 月 21-26 日在國家會議中心隆重舉辦。本次大會由微軟亞洲研究院和清華大學聯手主辦,是這個有著 30 多年曆史並享譽世界的機器學習領域的盛會首次來到中國,已成功吸引海內外 1200 多位學者的報名參與。乾貨很多,值得深入學習下

《Machine Learning for Industry: A Case Study》

介紹:這篇文章主要是以 Learning to Rank 為例說明企業界機器學習的具體應用,RankNet 對 NDCG 之類不敏感,加入 NDCG 因素後變成了 LambdaRank,同樣的思想從神經網路改為應用到 Boosted Tree 模型就成就了 LambdaMART。Chirs Burges,微軟的機器學習大神,Yahoo 2010 Learning to Rank Challenge 第一名得主,排序模型方面有 RankNet,LambdaRank,LambdaMART,尤其以 LambdaMART 最為突出,代表論文為: From RankNet to LambdaRank to LambdaMART: An Overview 此外,Burges 還有很多有名的代表作,比如:A Tutorial on Support Vector Machines for Pattern Recognition

Some Notes on Applied Mathematics for Machine Learning

100 Best GitHub: Deep Learning

介紹:100 Best GitHub: Deep Learning

《UFLDL-斯坦福大學 Andrew Ng 教授“Deep Learning”教程》

介紹:本教程將闡述無監督特徵學習和深度學習的主要觀點。通過學習,你也將實現多個功能學習/深度學習演算法,能看到它們為你工作,並學習如何應用/適應這些想法到新問題上。本教程假定機器學習的基本知識(特別是熟悉的監督學習,邏輯迴歸,梯度下降的想法),如果你不熟悉這些想法,我們建議你去這裡機器學習課程,並先完成第 II,III,IV 章(到邏輯迴歸)。此外這關於這套教程的原始碼在 github 上面已經有 python 版本了 UFLDL Tutorial Code

*《Deep Learning for Natural Language Processing and Related Applications》

介紹:這份文件來自微軟研究院,精髓很多。如果需要完全理解,需要一定的機器學習基礎。不過有些地方會讓人眼前一亮,毛塞頓開。

Understanding Convolutions

介紹:這是一篇介紹影象卷積運算的文章,講的已經算比較詳細的了

《Machine Learning Summer School》

介紹:每天請一個大牛來講座,主要涉及機器學習,大資料分析,平行計算以及人腦研究。https://www.youtube.com/user/smolix (需FQ)

《Awesome Machine Learning》

介紹:一個超級完整的機器學習開源庫總結,如果你認為這個碉堡了,那後面這個列表會更讓你驚訝:【Awesome Awesomeness】,國內已經有熱心的朋友進行了翻譯中文介紹機器學習資料探勘免費電子書

斯坦福《自然語言處理》課程視訊

介紹:ACL 候任主席、斯坦福大學計算機系 Chris Manning 教授的《自然語言處理》課程所有視訊已經可以在斯坦福公開課網站上觀看了(如 Chrome 不行,可用 IE 觀看) 作業與測驗也可以下載。

《Deep Learning and Shallow Learning》

介紹:對比 Deep Learning 和 Shallow Learning 的好文,來著浙大畢業、MIT 讀博的 Chiyuan Zhang 的部落格。

《Recommending music on Spotify with deep learning》

介紹:利用卷積神經網路做音樂推薦。

《Neural Networks and Deep Learning》

介紹:神經網路的免費線上書,已經寫了三章了,還有對應的開原始碼:https://github.com/mnielsen/neural-networks-and-deep-learning 愛好者的福音。

《Java Machine Learning》

介紹:Java 機器學習相關平臺和開源的機器學習庫,按照大資料、NLP、計算機視覺和 Deep Learning 分類進行了整理。看起來挺全的,Java 愛好者值得收藏。

《Machine Learning Theory: An Introductory Primer》

介紹:機器學習最基本的入門文章,適合零基礎者

《機器學習常見演算法分類彙總》

介紹:機器學習的演算法很多。很多時候困惑人們都是,很多演算法是一類演算法,而有些演算法又是從其他演算法中延伸出來的。這裡,我們從兩個方面來給大家介紹,第一個方面是學習的方式,第二個方面是演算法的類似性。

《機器學習經典論文/survey 合集》

介紹:看題目你已經知道了是什麼內容,沒錯。裡面有很多經典的機器學習論文值得仔細與反覆的閱讀。

《機器學習視訊庫》

介紹:視訊由加州理工學院(Caltech)出品。需要英語底子。

《機器學習經典書籍》

介紹:總結了機器學習的經典書籍,包括數學基礎和演算法理論的書籍,可做為入門參考書單。

《16 Free eBooks On Machine Learning》

介紹:16 本機器學習的電子書,可以下載下來在 pad,手機上面任意時刻去閱讀。不多我建議你看完一本再下載一本。

《A Large set of Machine Learning Resources for Beginners to Mavens》

介紹:標題很大,從新手到專家。不過看完上面所有資料。肯定是專家了

《機器學習最佳入門學習資料彙總》

介紹:入門的書真的很多,而且我已經幫你找齊了。

《Sibyl》

介紹:Sibyl 是一個監督式機器學習系統,用來解決預測方面的問題,比如 YouTube 的視訊推薦。

《Deep Learning》

介紹:Yoshua Bengio, Ian Goodfellow, Aaron Courville 著

《Neural Network & Text Mining》

介紹:關於(Deep) Neural Networks 在 NLP 和 Text Mining 方面一些 paper 的總結

《前景目標檢測1(總結)》

介紹:計算機視覺入門之前景目標檢測1(總結)

《行人檢測》

介紹:計算機視覺入門之行人檢測

《Deep Learning – important resources for learning and understanding》

介紹:Important resources for learning and understanding . Is awesome

《Machine Learning Theory: An Introductory Primer》

介紹:這又是一篇機器學習初學者的入門文章。值得一讀

《Neural Networks and Deep Learning》

介紹:線上 Neural Networks and Deep Learning 電子書

《Python 網頁爬蟲 & 文字處理 & 科學計算 & 機器學習 & 資料探勘兵器譜》

介紹:python 的 17 個關於機器學習的工具

《神奇的伽瑪函式(上)》

介紹:下集在這裡神奇的伽瑪函式(下)

《分散式機器學習的故事》

介紹:作者王益目前是騰訊廣告演算法總監,王益博士畢業後在 google 任研究。這篇文章王益博士 7 年來從谷歌到騰訊對於分佈機器學習的所見所聞。值得細讀

《機器學習提升之道(Level-Up Your Machine Learning)》

介紹:把機器學習提升的級別分為0~4 級,每級需要學習的教材和掌握的知識。這樣,給機器學習者提供一個上進的路線圖,以免走彎路。另外,整個網站都是關於機器學習的,資源很豐富。

《Machine Learning Surveys》

介紹:機器學習各個方向綜述的網站

《Deep Learning Reading list》

介紹:深度學習閱資源列表

《Deep Learning: Methods and Applications》

介紹:這是一本來自微的研究員 li Peng 和 Dong Yu 所著的關於深度學習的方法和應用的電子書

《Machine Learning Summer School 2014》

介紹:2014 年七月 CMU 舉辦的機器學習夏季課剛剛結束有近 50 小時的視訊、十多個 PDF 版幻燈片,覆蓋深度學習,貝葉斯,分散式機器學習,伸縮性等熱點話題。所有 13 名講師都是牛人:包括大牛 Tom Mitchell (他的[機器學習]是名校的常用教材),還有 CMU 李沐 .(1080P 高清喲)

《Sibyl: 來自 Google 的大規模機器學習系統》

介紹:在今年的 IEEE/IFIP 可靠系統和網路(DSN)國際會議上,Google 軟體工程師 Tushar Chandra 做了一個關於 Sibyl 系統的主題演講。 Sibyl 是一個監督式機器學習系統,用來解決預測方面的問題,比如 YouTube 的視訊推薦。詳情請閱讀 google sibyl

《Building a deeper understanding of images》

介紹:谷歌研究院的 Christian Szegedy 在谷歌研究院的部落格上簡要地介紹了他們今年參加 ImageNet 取得好成績的 GoogLeNet 系統.是關於影象處理的。

《Bayesian network 與 python 概率程式設計實戰入門》

介紹:貝葉斯學習。如果不是很清可看看概率程式語言與貝葉斯方法實踐

《AMA: Michael I Jordan》

介紹:網友問伯克利機器學習大牛、美國雙料院士 Michael I. Jordan:"如果你有 10 億美金,你怎麼花?Jordan: "我會用這 10 億美金建造一個 NASA 級別的自然語言處理研究專案。"

《機器學習&資料探勘筆記_16(常見面試之機器學習演算法思想簡單梳理)》

介紹:常見面試之機器學習演算法思想簡單梳理

《文字與資料探勘視訊彙總》

介紹:Videolectures 上最受歡迎的 25 個文字與資料探勘視訊彙總

《怎麼選擇深度學習的 GPUs》

介紹:在 Kaggle 上經常取得不錯成績的 Tim Dettmers 介紹了他自己是怎麼選擇深度學習的 GPUs, 以及個人如何構建深度學習的 GPU 叢集: http://t.cn/RhpuD1G

《對話機器學習大神 Michael Jordan:深度模型》

介紹:對話機器學習大神 Michael Jordan

《Deep Learning 和 Knowledge Graph 引爆大資料革命》

介紹:還有2,3 部分。http://blog.sina.com.cn/s/blog_46d0a3930101gs5h.html

《Deep Learning 教程翻譯》

介紹:是 Stanford 教授 Andrew Ng 的 Deep Learning 教程,國內的機器學習愛好者很熱心的把這個教程翻譯成了中文。如果你英語不好,可以看看這個

《Deep Learning 101》

介紹:因為近兩年來,深度學習在媒體界被炒作很厲害(就像大資料)。其實很多人都還不知道什麼是深度學習。這篇文章由淺入深。告訴你深度學究竟是什麼!

《UFLDL Tutorial》

介紹:這是斯坦福大學做的一免費課程(很勉強),這個可以給你在深度學習的路上給你一個學習的思路。裡面提到了一些基本的演算法。而且告訴你如何去應用到實際環境中。中文版

《Toronto Deep Learning Demos》

介紹:這是多倫多大學做的一個深度學習用來識別圖片標籤/圖轉文字的 demo。是一個實際應用案例。有原始碼

《Deep learning from the bottom up》

介紹:機器學習模型,閱讀這個內容需要有一定的基礎。

《R工具包的分類彙總》

介紹: (CRAN Task Views, 34 種常見任務,每個任務又各自分類列舉若干常用相關工具包) 例如: 機器學習,自然語言處理,時間序列分析,空間資訊分析,多重變數分析,計量經濟學,心理統計學,社會學統計,化學計量學,環境科學,藥物代謝動力學等

《機器學習常見演算法分類彙總》

介紹: 機器學習無疑是當前資料分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的演算法。本文為您總結一下常見的機器學習演算法,以供您在工作和學習中參考.

《Deep Learning(深度學習)學習筆記整理系列》

介紹: 很多幹貨,而且作者還總結了好幾個系列。另外還作者還了一個文章導航.非常的感謝作者總結。

Deep Learning(深度學習)學習筆記整理系列之(二)

Deep Learning(深度學習)學習筆記整理系列之(三)

Deep Learning(深度學習)學習筆記整理系列之(四)

Deep Learning(深度學習)學習筆記整理系列之(五)

Deep Learning(深度學習)學習筆記整理系列之(六)

Deep Learning(深度學習)學習筆記整理系列之(七)

DeepLearning(深度學習)學習筆記整理系列之(八)

《Tutorials Session A - Deep Learning for Computer Vision》

介紹:傳送理由:Rob Fergus 的用深度學習做計算機是覺的 NIPS 2013 教程。有 mp4, mp3, pdf 各種下載 他是紐約大學教授,目前也在 Facebook 工作,他 2014 年的 8 篇論文

《FudanNLP》

介紹:FudanNLP,這是一個復旦大學計算機學院開發的開源中文自然語言處理(NLP)工具包 Fudan NLP 裡包含中文分詞、關鍵詞抽取、命名實體識別、詞性標註、時間詞抽取、語法分析等功能,對搜尋引擎文字分析等極為有價值。

《Open Sourcing ml-ease》

介紹:LinkedIn 開源的機器學習工具包,支援單機, Hadoop cluster,和 Spark cluster 重點是 logistic regression 演算法

《機器學習週刊》

介紹:對於英語不好,但又很想學習機器學習的朋友。是一個大的福利。機器學習週刊目前主要提供中文版,還是面向廣大國內愛好者,內容涉及機器學習、資料探勘、並行系統、影象識別、人工智慧、機器人等等。謝謝作者

《線性代數》

介紹:《線性代數》是《機器學習》的重要數學先導課程。其實《線代》這門課講得淺顯易懂特別不容易,如果一上來就講逆序數及羅列行列式性質,很容易讓學生失去學習的興趣。我個人推薦的最佳《線性代數》課程是麻省理工 Gilbert Strang 教授的課程。 課程主頁

《Big-data》

介紹:大資料資料處理資源、工具不完備列表,從框架、分散式程式設計、分散式檔案系統、鍵值資料模型、圖資料模型、資料視覺化、列儲存、機器學習等。很讚的資源彙總。

《machine learning for smart dummies》

介紹:雅虎邀請了一名來自本古裡安大學的訪問學者,製作了一套關於機器學習的系列視訊課程。本課程共分為 7 期,詳細講解了有關 SVM, boosting, nearest neighbors, decision trees 等常規機器學習演算法的理論基礎知識。

《Entanglement-Based Quantum Machine Learning》

介紹:應對大資料時代,量子機器學習的第一個實驗 paper 下載

《How a Math Genius Hacked OkCupid to Find True Love》

介紹:Wired 雜誌報道了 UCLA 數學博士 Chris McKinlay (圖1)通過大資料手段+機器學習方法破解婚戀網站配對演算法找到真愛的故事,通過 Python 指令碼控制著 12 個賬號,下載了婚戀網站 2 萬女使用者的 600 萬問題答案,對他們進行了統計抽樣及聚類分析(圖2,3),最後終於收穫了真愛。科技改變命運!

《Underactuated Robotics》

介紹:MIT 的 Underactuated Robotics 於 2014 年 10 月 1 日開課,該課屬於 MIT 研究生級別的課程,對機器人和非線性動力系統感興趣的朋友不妨可以挑戰一下這門課程!

《mllib 實踐經驗(1)》

介紹:mllib 實踐經驗分享

《Google Turns To Deep Learning Classification To Fight Web Spam》

介紹:Google 用 Deep Learning 做的 antispam (反垃圾郵件)

《NLP 常用資訊資源》

介紹:NLP 常用資訊資源* 《NLP 常用資訊資源》

《機器學習速查表》

介紹:機器學習速查表

《Best Papers vs. Top Cited Papers in Computer Science》

介紹:從 1996 年開始在電腦科學的論文中被引用次數最多的論文

《Inf