機器學習經典書籍和論文集合

阿新 • • 發佈：2018-11-07

原文地址：http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html

入門書單

1.《數學之美》PDF6
作者吳軍大家都很熟悉。以極為通俗的語言講述了數學在機器學習和自然語言處理等領域的應用。

2.《Programming Collective Intelligence》（《集體智慧程式設計》）PDF3
作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》（《資料之美：解密優雅資料解決方案背後的故事》）的作者。這本書最大的優勢就是裡面沒有理論推導和複雜的數學公式，是很不錯的入門書。目前中文版已經脫銷，對於有志於這個領域的人來說，英文的pdf是個不錯的選擇，因為後面有很多經典書的翻譯都較差，只能看英文版，不如從這個入手。還有，這本書適合於快速看完，因為據評論，看完一些經典的帶有數學推導的書後會發現這本書什麼都沒講，只是舉了很多例子而已。

3.《Algorithms of the Intelligent Web》（《智慧web演算法》）PDF1
作者Haralambos Marmanis、Dmitry Babenko。這本書中的公式比《集體智慧程式設計》要略多一點，裡面的例子多是網際網路上的應用，看名字就知道。不足的地方在於裡面的配套程式碼是BeanShell而不是python或其他。總起來說，這本書還是適合初學者，與上一本一樣需要快速讀完，如果讀完上一本的話，這一本可以不必細看程式碼，瞭解演算法主要思想就行了。

4.《統計學習方法》 PDF模糊
作者李航，是國內機器學習領域的幾個大家之一，曾在MSRA任高階研究員，現在華為諾亞方舟實驗室。書中寫了十個演算法，每個演算法的介紹都很乾脆，直接上公式，是徹頭徹尾的“乾貨書”。每章末尾的參考文獻也方便了想深入理解演算法的童鞋直接查到經典論文；本書可以與上面兩本書互為輔助閱讀。

5.《Machine Learning》（《機器學習》） PDF7
作者Tom Mitchell是CMU的大師，有機器學習和半監督學習的網路課程視訊。這本書是領域內翻譯的較好的書籍，講述的演算法也比《統計學習方法》的範圍要大很多。據評論這本書主要在於啟發，講述公式為什麼成立而不是推導；不足的地方在於出版年限較早，時效性不如PRML。但有些基礎的經典還是不會過時的，所以這本書現在幾乎是機器學習的必讀書目。

6.《Mining of Massive Datasets》（《大資料》） PDF19
作者Anand Rajaraman[3]、Jeffrey David Ullman，Anand是Stanford的PhD。這本書介紹了很多演算法，也介紹了這些演算法在資料規模比較大的時候的變形。但是限於篇幅，每種演算法都沒有展開講的感覺，如果想深入瞭解需要查其他的資料，不過這樣的話對演算法進行了解也足夠了。還有一點不足的地方就是本書原文和翻譯都有許多錯誤，勘誤表比較長，讀者要用心了。

7.《Data Mining: Practical Machine Learning Tools and Techniques》（《資料探勘：實用機器學習技術》） PDF16
作者Ian H. Witten 、Eibe Frank是weka的作者、紐西蘭懷卡託大學教授。他們的《ManagingGigabytes》[4]也是資訊檢索方面的經典書籍。這本書最大的特點是對weka的使用進行了介紹，但是其理論部分太單薄，作為入門書籍還可，但是，經典的入門書籍如《集體智慧程式設計》、《智慧web演算法》已經很經典，學習的話不宜讀太多的入門書籍，建議只看一些上述兩本書沒講到的演算法。

8.《機器學習及其應用》
周志華、楊強主編。來源於“機器學習及其應用研討會”的文集。該研討會由復旦大學智慧資訊處理實驗室發起，目前已舉辦了十屆，國內的大牛如李航、項亮、王海峰、劉鐵巖、餘凱等都曾在該會議上做過講座。這本書講了很多機器學習前沿的具體的應用，需要有基礎的才能看懂。如果想了解機器學習研究趨勢的可以瀏覽一下這本書。關注領域內的學術會議是發現研究趨勢的方法嘛。

9.《Managing Gigabytes》（深入搜尋引擎）PDF8
資訊檢索不錯的書。

10.《Modern Information Retrieval》 PDF6
Ricardo Baeza-Yates et al. 1999。貌似第一本完整講述IR的書。可惜IR這些年進展迅猛，這本書略有些過時了。翻翻做參考還是不錯的。另外，Ricardo同學現在是Yahoo Research for Europe and Latin Ameria的頭頭。

11.《推薦系統實踐》 PDF13
項亮，不錯的入門讀物

深入

1.《Pattern Classification》（《模式分類》第二版） PDF14
作者Richard O. Duda[5]、Peter E. Hart、David。模式識別的奠基之作，但對最近呈主導地位的較好的方法SVM、Boosting方法沒有介紹，被評“掛一漏萬之嫌”。

2.《Pattern Recognition And Machine Learning》 PDF74
作者Christopher M. Bishop[6]；簡稱PRML，側重於概率模型，是貝葉斯方法的扛鼎之作，據評“具有強烈的工程氣息，可以配合stanford 大學 Andrew Ng 教授的 Machine Learning 視訊教程一起來學，效果翻倍。”

3.《The Elements of Statistical Learning : Data Mining, Inference, andPrediction》，（《統計學習基礎：資料探勘、推理與預測》第二版） PDF8
作者RobertTibshirani、Trevor Hastie、Jerome Friedman。“這本書的作者是Boosting方法最活躍的幾個研究人員，發明的Gradient Boosting提出了理解Boosting方法的新角度，極大擴充套件了Boosting方法的應用範圍。這本書對當前最為流行的方法有比較全面深入的介紹，對工程人員參考價值也許要更大一點。另一方面，它不僅總結了已經成熟了的一些技術，而且對尚在發展中的一些議題也有簡明扼要的論述。讓讀者充分體會到機器學習是一個仍然非常活躍的研究領域，應該會讓學術研究人員也有常讀常新的感受。”[7]

4.《Data Mining：Concepts andTechniques》（《資料探勘：概念與技術》第三版） PDF3
作者（美）Jiawei Han[8]、（加）Micheline Kamber、（加）Jian Pei，其中第一作者是華裔。本書毫無疑問是資料探勘方面的的經典之作，不過翻譯版總是被噴，沒辦法，大部分翻譯過來的書籍都被噴，想要不吃別人嚼過的東西，就好好學習英文吧。

5.《AI, Modern Approach 2nd》 PDF8
Peter Norvig，無爭議的領域經典。

6.《Foundations of Statistical Natural Language Processing》 PDF7
自然語言處理領域公認經典。

7.《Information Theory：Inference and Learning Algorithms》 PDF5

8.《Statistical Learning Theory》 PDF7
Vapnik的大作，統計學界的權威，本書將理論上升到了哲學層面，他的另一本書《The Nature ofStatistical Learning Theory》也是統計學習研究不可多得的好書，但是這兩本書都比較深入，適合有一定基礎的讀者。

數學基礎

1.《矩陣分析》 PDF22
Roger Horn。矩陣分析領域無爭議的經典

2.《概率論及其應用》 PDF3
威廉·費勒。極牛的書，可數學味道太重，不適合做機器學習的

3.《All Of Statistics》 PDF高清版18
機器學習這個方向，統計學也一樣非常重要。推薦All of statistics，這是CMU的一本很簡潔的教科書，注重概念，簡化計算，簡化與Machine Learning無關的概念和統計內容，可以說是很好的快速入門材料。

4.《Nonlinear Programming, 2nd》 PDF5
最優化方法，非線性規劃的參考書。

5.《Convex Optimization》 PDF9 配套程式碼7
Boyd的經典書籍，被引用次數超過14000次，面向實際應用，並且有配套程式碼，是一本不可多得的好書。

6.《Numerical Optimization》 PDF6
第二版，Nocedal著，非常適合非數值專業的學生和工程師參考，演算法流程清晰詳細，原理清楚。

7.《Introduction to Mathematical Statistics》 PDF5
第六版，Hogg著，本書介紹了概率統計的基本概念以及各種分佈，以及ML，Bayesian方法等內容。

8.《An Introduction to Probabilistic Graphical Models》 PDF20
Jordan著，本書介紹了條件獨立、分解、混合、條件混合等圖模型中的基本概念，對隱變數（潛在變數）也做了詳細介紹，相信大家在隱馬爾科夫鏈和用Gaussian混合模型來實現EM演算法時遇到過這個概念。

9.《Probabilistic Graphical Models-Principles and Techniques》 PDF8
Koller著，一本很厚很全面的書，理論性很強，可以作為參考書使用。

具體數學 PDF5
經典

大家的補充

1.線性代數 (Linear Algebra)：

我想國內的大學生都會學過這門課程，但是，未必每一位老師都能貫徹它的精要。這門學科對於Learning是必備的基礎，對它的透徹掌握是必不可少的。我在科大一年級的時候就學習了這門課，後來到了香港後，又重新把線性代數讀了一遍，所讀的是

Introduction to Linear Algebra (3rd Ed.) by Gilbert Strang.

這本書是MIT的線性代數課使用的教材，也是被很多其它大學選用的經典教材。它的難度適中，講解清晰，重要的是對許多核心的概念討論得比較透徹。我個人覺得，學習線性代數，最重要的不是去熟練矩陣運算和解方程的方法——這些在實際工作中MATLAB可以代勞，關鍵的是要深入理解幾個基礎而又重要的概念：子空間(Subspace)，正交(Orthogonality)，特徵值和特徵向量(Eigenvalues and eigenvectors)，和線性變換(Linear transform)。從我的角度看來，一本線代教科書的質量，就在於它能否給這些根本概念以足夠的重視，能否把它們的聯絡講清楚。Strang的這本書在這方面是做得很好的。

而且，這本書有個得天獨厚的優勢。書的作者長期在MIT講授線性代數課(18.06)，課程的video在MIT的Open courseware網站上有提供。有時間的朋友可以一邊看著名師授課的錄影，一邊對照課本學習或者複習。

http://ocw.mit.edu/OcwWeb/Mathematics/18-06Spring-2005/CourseHome/index.htm8

2.概率和統計 (Probability and Statistics):

概率論和統計的入門教科書很多，我目前也沒有特別的推薦。我在這裡想介紹的是一本關於多元統計的基礎教科書：

Applied Multivariate Statistical Analysis (5th Ed.) by Richard A. Johnson and Dean W. Wichern

這本書是我在剛接觸向量統計的時候用於學習的，我在香港時做研究的基礎就是從此打下了。實驗室的一些同學也借用這本書學習向量統計。這本書沒有特別追求數學上的深度，而是以通俗易懂的方式講述主要的基本概念，讀起來很舒服，內容也很實用。對於Linear regression, factor analysis, principal component analysis (PCA), and canonical component analysis (CCA)這些Learning中的基本方法也展開了初步的論述。

之後就可以進一步深入學習貝葉斯統計和Graphical models。一本理想的書是

Introduction to Graphical Models (draft version). by M. Jordan and C. Bishop.

我不知道這本書是不是已經出版了（不要和Learning in Graphical Models混淆，那是個論文集，不適合初學）。這本書從基本的貝葉斯統計模型出發一直深入到複雜的統計網路的估計和推斷，深入淺出，statistical learning的許多重要方面都在此書有清楚論述和詳細講解。MIT內部可以access，至於外面，好像也是有電子版的。

3.分析 (Analysis)：

我想大家基本都在大學就學過微積分或者數學分析，深度和廣度則隨各個學校而異了。這個領域是很多學科的基礎，值得推薦的教科書莫過於

Principles of Mathematical Analysis, by Walter Rudin

有點老，但是絕對經典，深入透徹。缺點就是比較艱深——這是Rudin的書的一貫風格，適合於有一定基礎後回頭去看。

在分析這個方向，接下來就是泛函分析(Functional Analysis)。

Introductory Functional Analysis with Applications, by Erwin Kreyszig.

適合作為泛函的基礎教材，容易切入而不失全面。我特別喜歡它對於譜論和運算元理論的特別關注，這對於做learning的研究是特別重要的。Rudin也有一本關於functional analysis的書，那本書在數學上可能更為深刻，但是不易於上手，所講內容和learning的切合度不如此書。

在分析這個方向，還有一個重要的學科是測度理論(Measure theory)，但是我看過的書裡面目前還沒有感覺有特別值得介紹的。

4.拓撲 (Topology)：

在我讀過的基本拓撲書各有特色，但是綜合而言，我最推崇：

Topology (2nd Ed.) by James Munkres

這本書是Munkres教授長期執教MIT拓撲課的心血所凝。對於一般拓撲學(General topology)有全面介紹，而對於代數拓撲(Algebraic topology)也有適度的探討。此書不需要特別的數學知識就可以開始學習，由淺入深，從最基本的集合論概念（很多書不屑講這個）到Nagata-Smirnov Theorem和Tychonoff theorem等較深的定理（很多書避開了這個）都覆蓋了。講述方式思想性很強，對於很多定理，除了給出證明過程和引導你思考其背後的原理脈絡，很多令人讚歎的亮點——我常讀得忘卻飢餓，不願釋手。很多習題很有水平。

5.流形理論 (Manifold theory)：

對於拓撲和分析有一定把握時，方可開始學習流形理論，否則所學只能流於浮淺。我所使用的書是

Introduction to Smooth Manifolds. by John M. Lee

雖然書名有introduction這個單詞，但是實際上此書涉入很深，除了講授了基本的manifold, tangent space, bundle, sub-manifold等，還探討了諸如綱理論(Category theory)，德拉姆上同調(De Rham cohomology)和積分流形等一些比較高階的專題。對於李群和李代數也有相當多的討論。行文通俗而又不失嚴謹，不過對某些記號方式需要熟悉一下。

雖然李群論是建基於平滑流形的概念之上，不過，也可能從矩陣出發直接學習李群和李代數——這種方法對於急需使用李群論解決問題的朋友可能更加實用。而且，對於一個問題從不同角度看待也利於加深理解。下面一本書就是這個方向的典範：

Lie Groups, Lie Algebras, and Representations: An Elementary Introduction. by Brian C. Hall

此書從開始即從矩陣切入，從代數而非幾何角度引入矩陣李群的概念。並通過定義運算的方式建立exponential mapping，並就此引入李代數。這種方式比起傳統的通過“左不變向量場(Left-invariant vector field)“的方式定義李代數更容易為人所接受，也更容易揭示李代數的意義。最後，也有專門的論述把這種新的定義方式和傳統方式聯絡起來。

機器學習經典書籍&論文

轉自水木

除了以下推薦的書以外，出版在Foundations and Trends in Machine Learning上面的survey文章都值得一看。

入門：

Pattern Recognition And Machine Learning

Christopher M. Bishop

Machine Learning : A Probabilistic Perspective

Kevin P. Murphy

The Elements of Statistical Learning : Data Mining, Inference, and Predictio
n

Trevor Hastie, Robert Tibshirani, Jerome Friedman

Information Theory, Inference and Learning Algorithms

David J. C. MacKay

All of Statistics : A Concise Course in Statistical Inference

Larry Wasserman

優化：

Convex Optimization

Stephen Boyd, Lieven Vandenberghe

Numerical Optimization

Jorge Nocedal, Stephen Wright

Optimization for Machine Learning

Suvrit Sra, Sebastian Nowozin, Stephen J. Wright

核方法：

Kernel Methods for Pattern Analysis

John Shawe-Taylor, Nello Cristianini

Learning with Kernels : Support Vector Machines, Regularization, Optimizatio
n, and Beyond

Bernhard Schlkopf, Alexander J. Smola

半監督：

Semi-Supervised Learning

Olivier Chapelle

高斯過程：

Gaussian Processes for Machine Learning (Adaptive Computation and Machine Le
arning)

Carl Edward Rasmussen, Christopher K. I. Williams

概率圖模型：

Graphical Models, Exponential Families, and Variational Inference

Martin J Wainwright, Michael I Jordan

Boosting:

Boosting : Foundations and Algorithms

Schapire, Robert E.; Freund, Yoav

貝葉斯:

Statistical Decision Theory and Bayesian Analysis

James O. Berger

The Bayesian Choice : From Decision-Theoretic Foundations to Computational I
mplementation

Christian P. Robert

Bayesian Nonparametrics

Nils Lid Hjort, Chris Holmes, Peter Müller, Stephen G. Walker

Principles of Uncertainty

Joseph B. Kadane

Decision Theory : Principles and Approaches

Giovanni Parmigiani, Lurdes Inoue

蒙特卡洛：

Monte Carlo Strategies in Scientific Computing

Jun S. Liu

Monte Carlo Statistical Methods

Christian P.Robert, George Casella

資訊幾何：

Methods of Information Geometry

Shun-Ichi Amari, Hiroshi Nagaoka

Algebraic Geometry and Statistical Learning Theory

Watanabe, Sumio

Differential Geometry and Statistics

M.K. Murray, J.W. Rice

漸進收斂：

Asymptotic Statistics

A. W. van der Vaart

Empirical Processes in M-estimation

Geer, Sara A. van de

不推薦：

Statistical Learning Theory

Vladimir N. Vapnik

Bayesian Data Analysis, Second Edition

Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin

Probabilistic Graphical Models : Principles and Techniques

Daphne Koller, Nir Friedman

機器學習經典論文/survey合集

Active Learning

Two Faces of Active Learning50, Dasgupta, 2011

Active Learning Literature Survey8, Settles, 2010

Applications

A Survey of Emerging Approaches to Spam Filtering9, Caruana, 2012

Ambient Intelligence: A Survey3, Sadri, 2011

A Survey of Online Failure Prediction Methods2, Salfner, 2010

Anomaly Detection: A Survey3, Chandola, 2009

Mining Data Streams: A Review4, Gaber, 2005

Workflow Mining: A Survey of Issues and Approaches2, Aalst, 2003

Biology

Support Vector Machines in Bioinformatics: a Survey12, Chicco, 2012

Computational Epigenetics: The New Scientific Paradigm 3, Lim, 2010

Automated Protein Structure Classification: A Survey4, Hassanzadeh, 2009

Chemoinformatics - An Introduction for Computer Scientists3, Brown, 2009

Computational Challenges in Systems Biology2, Heath, 2009

Computational Epigenetics 3, Bock, 2008

Progress and Challenges in Protein Structure Prediction3, Zhang, 2008

A Review of Feature Selection in Bioinformatics4, Saeys, 2007

Machine Learning in Bioinformatics: A Brief Survey and Recommendations for Practitioners6, Bhaskar, 2006

Bioinformatics - An Introduction for Computer Scientists1, Cohen, 2004

Computational Systems Biology2, Kitano, 2002

Protein Structure Prediction and Structural Genomics2, Baker, 2001

Recent Developments and Future Directions in Computational Genomics1, Tsoka, 2000

Molecular Biology for Computer Scientists1, Hunter, 1993

Classification

Supervised Machine Learning: A Review of Classification Techniques22, Kotsiantis, 2007

Clustering

XML Data Clustering: An Overview4, Algergawy, 2011

Data Clustering: 50 Years Beyond K-Means6, Jain, 2010

Clustering Stability: An Overview5, Luxburg, 2010

Parallel Clustering Algorithms: A Survey4, Kim, 2009

A Survey: Clustering Ensembles Techniques2, Ghaemi, 2009

A Tutorial on Spectral Clustering4, Luxburg, 2007

Survey of Clustering Data Mining Techniques4, Berkhin, 2006

Survey of Clustering Algorithms4, Xu, 2005

Clustering of Time Series Data - A Survey3, Liao, 2005

Clustering Methods4, Rokach, 2005

Recent Advances in Clustering: A Brief Survey2, Kotsiantis, 2004

Subspace Clustering for High Dimensional Data: A Review2, Parsons, 2004

Unsupervised and Semi-supervised Clustering: a Brief Survey3, Grira, 2004

Clustering in Life Sciences3, Zhao, 2002

On Clustering Validation Techniques2, Halkidi, 2001

Data Clustering: A Review3, Jain, 1999

A Survey of Fuzzy Clustering4, Yang, 1993

Computer Vision

Pedestrian Detection: An Evaluation of the State of the Art7, Dollar, 2012

A Comparative Study of Palmprint Recognition Algorithms3, Zhang, 2012

Human Activity Analysis: A Review2, Aggarwal, 2011

Subspace Methods for Face Recognition2, Rao, 2010

Context Based Object Categorization: A Critical Survey2, Galleguillos, 2010

Object tracking: A Survey3, Yilmaz, 2006

Detecting Faces in Images: A Survey2, Yang, 2002

Databases

Data Fusion3, Bleiholder, 2008

Duplicate Record Detection: A Survey2, Elmagarmid, 2007

Overview of Record Linkage and Current Research Directions2, Winkler, 2006

A Survey of Schema-based Matching Approaches3, Shvaiko, 2005

Deep Learning

Representation Learning: A Review and New Perspectives17, Bengio, 2012

Dimension Reduction

Dimensionality Reduction: A Comparative Review6, Maaten, 2009

Dimension Reduction: A Guided Tour4, Burges, 2009

A Survey of Manifold-Based Learning Methods2, Huo, 2007

Toward Integrating Feature Selection Algorithms for Classification and Clustering3, Liu, 2005

An Introduction to Variable and Feature Selection3, Guyon, 2003

A Survey of Dimension Reduction Techniques2, Fodor, 2002

Economics

Auctions and Bidding: A Guide for Computer Scientists1, Parsons, 2011

Computational Sustainability1, Gomes, 2009

Computational Finance1, Tsang, 2004

Game Theory

Computer Poker: A Review4, Rubin, 2011

Graphical Models

An Introduction to Variational Methods for Graphical Models5, Jordan, 1999

Kernel Methods

Kernels for Vector-Valued Functions: a Review4, Alvarez, 2012

Learning Theory

Introduction to Statistical Learning Theory7, Bousquet, 2004

Machine Learning

A Few Useful Things to Know about Machine Learning7, Domingos, 2012

A Tutorial on Bayesian Nonparametric Models4, Blei, 2011

Decision Forests for Classification, Regression, Density Estimation, Manifold Learning and Semi-Supervised Learning2, Criminisi, 2011

Top 10 Algorithms in Data Mining4, Wu, 2008

Semi-Supervised Learning Literature Survey, Zhu, 2007

Interestingness Measures for Data Mining: A Survey, Geng, 2006

A Survey of Interestingness Measures for Knowledge Discovery1, McGarry, 2005

A Tutorial on the Cross-Entropy Method, Boer, 2005

A Survey of Kernels for Structured Data, Gartner, 2003

Survey on Frequent Pattern Mining, Goethals, 2003

The Boosting Approach to Machine Learning: An Overview1, Schapire, 2003

A Survey on Wavelet Applications in Data Mining, Li, 2002

Mathematics

Topology and Data3, Carlsson, 2009

Multi-armed Bandit

Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems3, Bubeck, 2012

Natural Computing

Reservoir Computing Approaches to Recurrent Neural Network Training, Jaeger, 2009

Artificial Immune Systems, Aickelin, 2005

A Survey of Evolutionary Algorithms for Data Mining and Knowledge Discovery, Freitas?? , 2003

Data Mining in Soft Computing Framework: A Survey, Mitra, 2002

Neural Networks for Classification: A Survey1, Zhang, 2000

Natural Language Processing

Probabilistic Topic Models2, Blei, 2012

Ontology Learning From Text: A Look Back And Into The Future1, Wong, 2012

Machine Transliteration Survey, Karimi, 2011

Translation Techniques in Cross-Language Information Retrieval, Zhou, 2011

Comprehensive Review of Opinion Summarization, Kim, 2011

A Survey on Sentiment Detection of Reviews, Tang, 2009

Word Sense Desambiguation: A Survey, Navigli, 2009

Topic Models, Blei, 2009

Opinion Mining and Sentiment Analysis, Pang, 2008

Information Extraction, Sarawagi, 2008

Statistical Machine Translation, Lopez, 2008

A Survey of Named Entity Recognition and Classification, Nadeau, 2007

Adaptive Information Extraction, Turmo, 2006

Survey of Text Clustering, Jing, 2005

Machine Learning in Automated Text Categorization, Sebastiani, 2002

Web Mining Research: A Survey, Kosala, 2000

Networks

Community Detection in Graphs1, Fortunato, 2010

A Survey of Statistical Network Models, Goldenberg, 2010

Communities in Networks, Porter, 2009

Graph Clustering, Schaeffer, 2007

Graph Mining: Laws, Generators, and Algorithms, Chakrabarti, 2006

Comparing Community Structure Identification, Danon, 2005

Link Mining: A Survey1, Getoor, 2005

Detecting Community Structure in Networks, Newman, 2004

Link Mining: A New Data Mining Challenge, Getoor, 2003

On-Line Learning

On-Line Algorithms in Machine Learning1, Blum, 1998

Others

A Survey of Very Large-Scale Neighborhood Search Techniques, Ahuja, 2001

Planning and Scheduling

A Review of Machine Learning for Automated Planning1, Jimenez, 2009

Probabilistic

Approximate Policy Iteration: A Survey and Some New Methods, Bertsekas, 2011

An Introduction to MCMC for Machine Learning1, Andrieu, 2003

Probabilistic Models

An Introduction to Conditional Random Fields1, Sutton, 2010

Randomized Algorithms

Randomized Algorithms for Matrices and Data1, Mahoney, 2011

Recommender Systems

Recent advances in Personalized Recommender Systems1, Liu, 2009

Matrix Factorization Techniques for Recommender Systems1, Koren, 2009

A Survey of Collaborative Filtering Techniques1, Su, 2009

Regression

Ensemble Approaches for Regression: a Survey4, Moreira, 2012

Reinforcement Learning

A Survey of Reinforcement Learning in Relational Domains1, Otterlo, 2005

Reinforcement Learning: A Survey, Kaelbling, 1996

Rule Learning

Association Mining, Ceglar, 2006

Algorithms for Association Rule Mining - A General Survey and Comparison, Hipp, 2000

Testing

Controlled Experiments on the Web: Survey and Practical Guide, Kohavi, 2009

Time Series

Time-Series Data Mining2, Esling, 2012

A Review on Time Series Data Mining1, Fu, 2011

Discrete Wavelet Transform-Based Time Series Analysis and Mining, Chaovalit, 2011

Transfer Learning

A Survey on Transfer Learning, Pan, 2010

Web Mining

A Taxonomy of Sequential Pattern Mining Algorithms, Mabroukeh, 2010

A Survey of Web Clustering Engines, Carpineto, 2009

Web Page Classification: Features and Algorithms, Qi, 2009

Mining Interesting Knowledge from Weblogs: A Survey, Facca, 2005

An Overview of Web Data Clustering Practices, Vakali, 2005

A Survey of Web Metrics, Dhyani, 2002

Data Mining for Hypertext: A Tutorial Survey3, Chakrabarti, 2000

機器學習和深度學習的研究進展正深刻變革著人類的技術，本文列出了自 2014 年以來這兩個領域發表的最重要（被引用次數最多）的 20 篇科學論文，以饗讀者。

機器學習，尤其是其子領域深度學習，在近些年來取得了許多驚人的進展。重要的研究論文可能帶來使全球數十億人受益的技術突破。這一領域的研究目前發展非常快，為了幫助你瞭解進展狀況，我們列出了自 2014 年以來最重要的 20 篇科學論文。

我們篩選論文的標準是來自三大學術搜尋引擎谷歌學術（scholar.google.com）、微軟學術（academic.microsoft.com）和 semanticscholar.org 的引用量。由於不同搜尋引擎的引用量資料各不相同，所以我們在這裡僅列出了微軟學術的資料，其資料比其它兩家稍低一點。

我們還給出了每篇論文的發表時間、高度有影響力的引用數量（HIC）和引用速度（CV），以上資料由 semanticscholar.org 提供。HIC 表示了以此為基礎的論文情況和與其它論文的關係，代表了有意義的引用。CV 是最近 3 年每年引用數量的加權平均。有些引用的 CV 是 0，那是因為 semanticscholar.org 上沒有給出資料。這 20 篇論文中大多數（包括前 8 篇）都是關於深度學習的，但同時也很多樣性，僅有一位作者（Yoshua Bengio）有 2 篇論文，而且這些論文發表在很多不同的地方：CoRR (3)、ECCV (3)、IEEE CVPR (3)、NIPS (2)、ACM Comp Surveys、ICML、IEEE PAMI、IEEE TKDE、Information Fusion、Int. J. on Computers & EE、JMLR、KDD 和 Neural Networks。前 2 篇論文的引用量目前遠遠高於其它論文。注意第 2 篇論文去年才發表！要了解機器學習和深度學習的最新進展，這些論文一定不能錯過。

1. 論文：Dropout：一種防止神經網路過擬合的簡單方法（Dropout: a simple way to prevent neural networks from overfitting）

連結：http://suo.im/3o6l4B
作者：Hinton, G.E., Krizhevsky, A., Srivastava, N., Sutskever, I., & Salakhutdinov, R. (2014). Journal of Machine Learning Research, 15, 1929-1958.
資料：引用：2084、HIC：142、CV：536
摘要：其關鍵思想是在神經網路的訓練過程中隨機丟棄單元（連同它們的連線點）。這能防止單元適應過度，顯著減少過擬合，並相對於其它正則化方法有重大改進。

2. 論文：用於影象識別的深度殘差學習（Deep Residual Learning for Image Recognition）

連結：http://suo.im/1JrYXX
作者：He, K., Ren, S., Sun, J., & Zhang, X. (2016). CoRR
資料：引用：1436、HIC：137、CV：582
摘要：目前的深度學習網路層數越來越多，越來越難以訓練，因此我們提出了一種減緩訓練壓力的殘差學習框架。我們明確地將這些層重新定義為與輸入層有關的學習殘差函式，而不是學習未被引用的函式。與此同時，我們提供了全面的經驗證據以表明殘差網路更容易優化，並可通過增加其層數來提升精確度。

3. 論文：批標準化：通過減少內部協移加速深度神經網路訓練（Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift）

連結：http://suo.im/3sJtk1
作者：Sergey Ioffe, Christian Szegedy (2015) ICML.
資料：引用：946、HIC：56、CV：0
摘要：訓練深度神經網路的過程很複雜，原因在於每層的輸入分佈隨著訓練過程中引起的前面層的引數變化而變化。我們把這種現象稱為內部協變數轉移（internal covariate shift），並可利用歸一化層輸入來解決此問題。通過將此方法應用到最先進的影象分類模型，批標準化在訓練次數減少了 14 倍的條件下達到了與原始模型相同的精度，這表明批標準化具有明顯的優勢。

4. 論文：利用卷積神經網路進行大規模視訊分類（Large-Scale Video Classification with Convolutional Neural Networks）

連結：http://suo.im/25lfXF
作者：Fei-Fei, L., Karpathy, A., Leung, T., Shetty, S., Sukthankar, R., & Toderici, G. (2014). IEEE Conference on Computer Vision and Pattern Recognition
資料：引用：865、HIC：24、CV：239
摘要：針對影象識別問題，卷積神經網路（CNN）被認為是一類強大的模型。受到這些結果的激勵，我們使用了一個包含 487 個類別、100 萬 YouTube 視訊的大型資料集，對利用 CNN 進行大規模視訊分類作了一次廣泛的實證評估。

5. 論文：Microsoft COCO：語境中的通用物件（Microsoft COCO: Common Objects in Context）

連結：http://suo.im/DAXwA
作者：Belongie, S.J., Dollár, P., Hays, J., Lin, T., Maire, M., Perona, P., Ramanan, D., & Zitnick, C.L. (2014). ECCV.
資料：引用：830、HIC：78、CV：279
摘要：我們展示了一個新的資料集，通過將物件識別問題放入更廣泛的場景理解問題的語境中，以推進當前物件識別領域中最先進的技術。我們的資料集包含了 91 種物件型別的照片，這些圖片對於一個 4 歲大的孩子而言，很容易識別。最後，我們利用可變形部件模型（DPM）為邊界框和分割檢測結果提供了一個基線效能分析。

6. 論文：使用場景資料庫學習場景識別中的深層特徵（Learning deep features for scene recognition using places database）

連結：http://suo.im/2EOBTa
作者：Lapedriza, À., Oliva, A., Torralba, A., Xiao, J., & Zhou, B. (2014). NIPS.
資料：引用：644、HIC：65、CV：0
摘要：我們引入了一個以場景為中心的新資料庫，這個資料庫稱為「Places」，裡面包含了超過 700 萬個標註好了的場景。我們提議使用新方法去比較影象資料集的密度和多樣性，以表明 Places 與其它場景資料庫一樣密集並更具多樣性。

7. 論文：生成對抗網路（Generative adversarial nets）

連結：http://suo.im/3YS5F6
作者：Bengio, Y., Courville, A.C., Goodfellow, I.J., Mirza, M., Ozair, S., Pouget-Abadie, J., Warde-Farley, D., & Xu, B. (2014) NIPS.
資料：引用：463、HIC：55、CV：0
摘要：通過對抗過程，我們提出了一個評估生成模型的新框架。在此框架中，我們同時訓練兩個模型：生成模型 G 捕獲資料分佈；判別模型 D 評估樣本示來自訓練資料集（而不是來自 G 中）的概率。

8. 論文：通過核心相關濾波器實現高速跟蹤（High-Speed Tracking with Kernelized Correlation Filters）

連結：http://suo.im/2BBOea
作者：Batista, J., Caseiro, R., Henriques, J.F., & Martins, P. (2015). CoRR
資料：引用：439、HIC：43、CV：0
摘要：大多數的現代追蹤器，為應對自然影象中的變化，典型的方法是採用翻譯和縮放樣本補丁訓練分類器。我們針對包含成千上萬個翻譯補丁資料集提出了一個分析模型。結果表明結果資料矩陣是迴圈的，我們可以利用離散傅立葉變換對角化已有的迴圈矩陣，將儲存和計算量降低了幾個數量級。

9. 論文：多標籤學習演算法綜述（A Review on Multi-Label Learning Algorithms）

連結：http://suo.im/3LgpGf
作者：Zhang, M., & Zhou, Z. (2014). IEEE TKDE
資料：引用：436、HIC：7、CV：91
摘要：本論文的主要目的是對多標籤學習問題進行及時回顧。在多標籤學習問題中，一個例項代表一個樣本，同時，一個樣本與一組標籤相關聯。

10. 論文：深層神經網路特徵的可傳遞性（How transferable are features in deep neural networks）

連結：http://suo.im/aDLgu
作者：Bengio, Y., Clune, J., Lipson, H., & Yosinski, J. (2014) CoRR
資料：引用：402、HIC：14、CV：0
摘要：我們用實驗量化了深層卷積神經網路中每層神經元的一般性與特異性，並報告了一些令人驚訝的結果。可傳遞性受到兩個不同問題的不利影響：（1）以犧牲目標任務的效能為代價，實現更高層神經元對原始人物的專業化，這是預料之中的；（2）與分裂共同適應神經元（co-adapted neuron）之間的網路有關的優化困難，這是預料之外的。

11. 論文：我們需要數百種分類器來解決真實世界的分類問題嗎？（Do we need hundreds of classifiers to solve real world classification problems）

連結：http://suo.im/2w14RK
作者：Amorim, D.G., Barro, S., Cernadas, E., & Delgado, M.F. (2014). Journal of Machine Learning Research
資料：引用：387、HIC：3、CV：0
摘要：我們評估了來自 17 個「家族」（判別分析、貝葉斯、神經網路、支援向量機、決策樹、基於規則的分類器、提升、裝袋、堆疊、隨機森林、整合方法、廣義線性模型、最近鄰、部分最小二乘和主成分迴歸、邏輯和多項迴歸、多元自適應迴歸樣條法等）的 179 個分類器。我們使用了來自 UCI 資料庫中的 121 個數據集來研究分類器行為，這些行為不依賴於所選取的資料集。最終勝出的是使用 R 語言實現的隨機森林方法和 C 中使用 LibSVM 實現的帶有高斯核心的 SVM。

12. 論文：知識庫：一種概率知識融合的網路規模方法（Knowledge vault: a web-scale approach to probabilistic knowledge fusion）

連結：http://suo.im/3qCSs6
作者：Dong, X., Gabrilovich, E., Heitz, G., Horn, W., Lao, N., Murphy, K., ... & Zhang, W.(2014, August). In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining ACM
資料：引用：334、HIC：7、CV：107
摘要：我們引入了一個網路規模的概率知識庫，它將網頁內容提取（通過文字分析、表格資料、頁面結構和人工註釋獲得）與來自現存知識庫中的先驗知識相結合，以構建新知識庫。我們部署監督學習方法去融合不同的資訊源。該知識庫比先前釋出的任何結構化知識庫大得多，並且具有概率推理系統，該概率推理系統能計算事實準確性的校準概率。

13. 論文：用於高維資料的可擴充套件最近鄰演算法（Scalable Nearest Neighbor Algorithms for High Dimensional Data）

連結：http://suo.im/hjTa4
作者：Lowe, D.G., & Muja, M. (2014). IEEE Trans. Pattern Anal. Mach. Intell.
資料：引用：324、HIC：11、CV：69
摘要：我們提出了用於近似最近鄰匹配的新演算法，並將其與以前的演算法進行比較。為了將其擴充套件到大型資料集（不適合單機的儲存處理）上，我們提出了一種分散式最近鄰匹配框架，該框架可以與論文中描述的任何演算法一起使用。

14. 論文：回顧超限學習機的發展趨勢（Trends in extreme learning machines: a review）

連結：http://suo.im/3WSEQi
作者：Huang, G., Huang, G., Song, S., & You, K. (2015). Neural Networks
資料：引用：323、HIC：0、CV：0
摘要：我們的目標是報告超限學習機（ELM）的理論研究和實踐進展所處的現狀。除了分類和迴歸，ELM 最近已經被擴充套件到叢集、特徵選擇、代表性學習和許多其他學習任務。由於其驚人的高效性、簡單性和令人印象深刻的泛化能力，ELM 已經被廣泛用於各種領域，如生物醫學工程、計算機視覺、系統識別、控制和機器人。

15. 論文：一份關於概念漂移適應的調查（A survey on concept drift adaptation）

連結：http://suo.im/3bQkiz
作者：Bifet, A., Bouchachia, A., Gama, J., Pechenizkiy, M., & Zliobaite, I. ACM Comput. Surv., 2014
資料：引用：314、HIC：4、CV：23
摘要：該文全面介紹了概念漂移適應。它指的是當輸入資料與目標變數之間的關係隨時間變化之時的線上監督學習場景。

16. 論文：深度卷積啟用特徵的多尺度無序池化（Multi-scale Orderless Pooling of Deep Convolutional Activation Features）

連結：http://suo.im/3gNw8e
作者：Gong, Y., Guo, R., Lazebnik, S., & Wang, L. (2014). ECCV
資料：引用：293、HIC：23、CV：95
摘要：為了在不降低其辨別力的同時改善卷積神經網路啟用特徵的不變性，本文提出了一種簡單但有效的方案：多尺度無序池化（MOP-CNN）。

17. 論文：同時檢測和分割（Simultaneous Detection and Segmentation）

連結：http://suo.im/4b0ye0
作者：Arbeláez, P.A., Girshick, R.B., Hariharan, B., & Malik, J. (2014) ECCV
資料：引用：286、HIC：23、CV：94
摘要：本文的目標是檢測影象中一個類別的所有例項，併為每個例項標記屬於它的畫素。我們稱將此任務稱為同時檢測和分割（SDS）。

18. 論文：一份關於特徵選擇方法的調查（A survey on feature selection methods）

連結：http://suo.im/4BDdKA
作者：Chandrashekar, G., & Sahin, F. Int. J. on Computers & Electrical Engineering
資料：引用：279、HIC：1、CV：58
摘要：在文獻中，有許多特徵選擇方法可用，由於某些資料集具有數百個可用的特徵，這會導致資料具有非常高的維度。

19. 論文：用迴歸樹整合方法在一毫秒內實現人臉校準（One Millisecond Face Alignment with an Ensemble of Regression Trees）

連結：http://suo.im/1iFyub
作者：Kazemi, Vahid, and Josephine Sullivan, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2014
資料：引用：277、HIC：15、CV：0
摘要：本文解決了單個影象的人臉校準問題。我們展示了怎樣使用迴歸樹整合來直接從畫素強度的稀疏子集估計面部的地標位置，並通過高質量的預測實現了超實時效能。

20. 論文：關於作為混合系統的多分類器系統的調查（A survey of multiple classifier systems as hybrid systems）

連結：http://suo.im/3c9EFD
作者：Corchado, E., Graña, M., & Wozniak, M. (2014). Information Fusion, 16, 3-17.
資料：引用：269、HIC：1、CV：22
摘要：模式分類領域目前關注的焦點是幾種分類器系統的組合，構建這些分類器系統可以使用相同或者不同的模型和／或資料集構建。

原文地址：http://www.kdnuggets.com/2017/04/top-20-papers-machine-learning.html

機器學習經典書籍和論文集合

入門書單

深入

數學基礎

大家的補充

機器學習經典書籍&論文

機器學習經典論文/survey合集

機器學習經典書籍和論文集合

機器學習經典書籍&論文

機器學習實戰書籍和程式碼分享 | 【PCA簡介】

資源下載| 機器學習經典書籍《統計學習方法》(Python3.6)程式碼實現(及課件)

機器學習經典書籍

機器學習經典書籍--入門書-入門--深入--數學基礎

標準化和歸一化對機器學習經典模型的影響

機器學習經典損失函式之交叉熵和均方差

計算機視覺/機器學習/深度學習經典書籍整理

機器學習經典論文/survey合集

機器學習相關資料和書籍推薦

機器學習經典算法具體解釋及Python實現--線性回歸（Linear Regression）算法

Spark機器學習中ml和mllib中矩陣、向量

斯坦福大學公開課機器學習： advice for applying machine learning | regularization and bais/variance（機器學習中方差和偏差如何相互影響、以及和算法的正則化之間的相互關系）

Python3入門機器學習--經典算法與應用|Python3機器學習

人工智能-機器學習等書籍收藏

機器學習之numpy和matplotlib學習（十五）

機器學習之numpy和matplotlib學習（十四）

機器學習之numpy和matplotlib學習（十三）

機器學習之numpy和matplotlib學習（十二）

機器學習經典書籍和論文集合

入門書單

深入

數學基礎

大家的補充

機器學習經典書籍&論文

機器學習經典論文/survey合集

相關推薦