機器學習經典書籍
入門書單
-
《數學之美》 PDF
作者吳軍大家都很熟悉。以極為通俗的語言講述了數學在機器學習和自然語言處理等領域的應用。
-
《Programming Collective Intelligence》(《集體智慧程式設計》)PDF
作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《資料之美:解密優雅資料解決方案背後的故事》)的作者。這本書最大的優勢就是裡面沒有理論推導和複雜的數學公式,是很不錯的入門書。目前中文版已經脫銷,對於有志於這個領域的人來說,英文的pdf是個不錯的選擇,因為後面有很多經典書的翻譯都較差,只能看英文版,不如從這個入手。還有,這本書適合於快速看完,因為據評論,看完一些經典的帶有數學推導的書後會發現這本書什麼都沒講,只是舉了很多例子而已。
-
《Algorithms of the Intelligent Web》(《智慧web演算法》)PDF
作者Haralambos Marmanis、Dmitry Babenko。這本書中的公式比《集體智慧程式設計》要略多一點,裡面的例子多是網際網路上的應用,看名字就知道。不足的地方在於裡面的配套程式碼是BeanShell而不是python或其他。總起來說,這本書還是適合初學者,與上一本一樣需要快速讀完,如果讀完上一本的話,這一本可以不必細看程式碼,瞭解演算法主要思想就行了。
-
《統計學習方法》 PDF
作者李航,是國內機器學習領域的幾個大家之一,曾在MSRA任高階研究員,現在華為諾亞方舟實驗室。書中寫了十個演算法,每個演算法的介紹都很乾脆,直接上公式,是徹頭徹尾的“乾貨書”。每章末尾的參考文獻也方便了想深入理解演算法的童鞋直接查到經典論文;本書可以與上面兩本書互為輔助閱讀。
-
《Machine Learning》(《機器學習》) PDF
作者Tom Mitchell是CMU的大師,有機器學習和半監督學習的網路課程視訊。這本書是領域內翻譯的較好的書籍,講述的演算法也比《統計學習方法》的範圍要大很多。據評論這本書主要在於啟發,講述公式為什麼成立而不是推導;不足的地方在於出版年限較早,時效性不如PRML。但有些基礎的經典還是不會過時的,所以這本書現在幾乎是機器學習的必讀書目。
-
《Mining of Massive Datasets》(《大資料》) PDF
作者Anand Rajaraman[3]、Jeffrey David Ullman,Anand是Stanford的PhD。這本書介紹了很多演算法,也介紹了這些演算法在資料規模比較大的時候的變形。但是限於篇幅,每種演算法都沒有展開講的感覺,如果想深入瞭解需要查其他的資料,不過這樣的話對演算法進行了解也足夠了。還有一點不足的地方就是本書原文和翻譯都有許多錯誤,勘誤表比較長,讀者要用心了。
-
《Data Mining: Practical Machine Learning Tools and Techniques》(《資料探勘:實用機器學習技術》) PDF
作者Ian H. Witten 、Eibe Frank是weka的作者、紐西蘭懷卡託大學教授。他們的《ManagingGigabytes》[4]也是資訊檢索方面的經典書籍。這本書最大的特點是對weka的使用進行了介紹,但是其理論部分太單薄,作為入門書籍還可,但是,經典的入門書籍如《集體智慧程式設計》、《智慧web演算法》已經很經典,學習的話不宜讀太多的入門書籍,建議只看一些上述兩本書沒講到的演算法。
-
《機器學習及其應用》
周志華、楊強主編。來源於“機器學習及其應用研討會”的文集。該研討會由復旦大學智慧資訊處理實驗室發起,目前已舉辦了十屆,國內的大牛如李航、項亮、王海峰、劉鐵巖、餘凱等都曾在該會議上做過講座。這本書講了很多機器學習前沿的具體的應用,需要有基礎的才能看懂。如果想了解機器學習研究趨勢的可以瀏覽一下這本書。關注領域內的學術會議是發現研究趨勢的方法嘛。
-
《Managing Gigabytes》(深入搜尋引擎)PDF
資訊檢索不錯的書。
-
《Modern Information Retrieval》 PDF
Ricardo Baeza-Yates et al. 1999。貌似第一本完整講述IR的書。可惜IR這些年進展迅猛,這本書略有些過時了。翻翻做參考還是不錯的。另外,Ricardo同學現在是Yahoo Research for Europe and Latin Ameria的頭頭。
-
《推薦系統實踐》 PDF
項亮,不錯的入門讀物
深入
-
《Pattern Classification》(《模式分類》第二版) PDF
作者Richard O. Duda[5]、Peter E. Hart、David。模式識別的奠基之作,但對最近呈主導地位的較好的方法SVM、Boosting方法沒有介紹,被評“掛一漏萬之嫌”。
-
《Pattern Recognition And Machine Learning》 PDF
作者Christopher M. Bishop[6];簡稱PRML,側重於概率模型,是貝葉斯方法的扛鼎之作,據評“具有強烈的工程氣息,可以配合stanford 大學 Andrew Ng 教授的 Machine Learning 視訊教程一起來學,效果翻倍。”
-
《The Elements of Statistical Learning : Data Mining, Inference, andPrediction》,(《統計學習基礎:資料探勘、推理與預測》第二版) PDF
作者RobertTibshirani、Trevor Hastie、Jerome Friedman。“這本書的作者是Boosting方法最活躍的幾個研究人員,發明的Gradient Boosting提出了理解Boosting方法的新角度,極大擴充套件了Boosting方法的應用範圍。這本書對當前最為流行的方法有比較全面深入的介紹,對工程人員參考價值也許要更大一點。另一方面,它不僅總結了已經成熟了的一些技術,而且對尚在發展中的一些議題也有簡明扼要的論述。讓讀者充分體會到機器學習是一個仍然非常活躍的研究領域,應該會讓學術研究人員也有常讀常新的感受。”[7]
-
《Data Mining:Concepts andTechniques》(《資料探勘:概念與技術》第三版) PDF
作者(美)Jiawei Han[8]、(加)Micheline Kamber、(加)Jian Pei,其中第一作者是華裔。本書毫無疑問是資料探勘方面的的經典之作,不過翻譯版總是被噴,沒辦法,大部分翻譯過來的書籍都被噴,想要不吃別人嚼過的東西,就好好學習英文吧。
-
《AI, Modern Approach 2nd》 PDF
Peter Norvig,無爭議的領域經典。
-
《Foundations of Statistical Natural Language Processing》 PDF
自然語言處理領域公認經典。
- 《Information Theory:Inference and Learning Algorithms》 PDF
-
《Statistical Learning Theory》 PDF
Vapnik的大作,統計學界的權威,本書將理論上升到了哲學層面,他的另一本書《The Nature ofStatistical Learning Theory》也是統計學習研究不可多得的好書,但是這兩本書都比較深入,適合有一定基礎的讀者。
數學基礎
-
《矩陣分析》 PDF
Roger Horn。矩陣分析領域無爭議的經典
-
《概率論及其應用》 PDF
威廉·費勒。極牛的書,可數學味道太重,不適合做機器學習的
-
機器學習這個方向,統計學也一樣非常重要。推薦All of statistics,這是CMU的一本很簡潔的教科書,注重概念,簡化計算,簡化與Machine Learning無關的概念和統計內容,可以說是很好的快速入門材料。
-
《Nonlinear Programming, 2nd》 PDF
最優化方法,非線性規劃的參考書。
-
《Convex Optimization》 PDF 配套程式碼
Boyd的經典書籍,被引用次數超過14000次,面向實際應用,並且有配套程式碼,是一本不可多得的好書。
-
《Numerical Optimization》 PDF
第二版,Nocedal著,非常適合非數值專業的學生和工程師參考,演算法流程清晰詳細,原理清楚。
-
《Introduction to Mathematical Statistics》 PDF
第六版,Hogg著,本書介紹了概率統計的基本概念以及各種分佈,以及ML,Bayesian方法等內容。
-
《An Introduction to Probabilistic Graphical Models》 PDF
Jordan著,本書介紹了條件獨立、分解、混合、條件混合等圖模型中的基本概念,對隱變數(潛在變數)也做了詳細介紹,相信大家在隱馬爾科夫鏈和用Gaussian混合模型來實現EM演算法時遇到過這個概念。
-
《Probabilistic Graphical Models-Principles and Techniques》 PDF
Koller著,一本很厚很全面的書,理論性很強,可以作為參考書使用。
-
具體數學 PDF
經典
------------------------------------------------------------------------------------------------------------------------------
-
線性代數 (Linear Algebra):
我想國內的大學生都會學過這門課程,但是,未必每一位老師都能貫徹它的精要。這門學科對於Learning是必備的基礎,對它的透徹掌握是必不可少的。我在科大一年級的時候就學習了這門課,後來到了香港後,又重新把線性代數讀了一遍,所讀的是
Introduction to Linear Algebra (3rd Ed.) by Gilbert Strang.
這本書是MIT的線性代數課使用的教材,也是被很多其它大學選用的經典教材。它的難度適中,講解清晰,重要的是對許多核心的概念討論得比較透徹。我個人覺得,學習線性代數,最重要的不是去熟練矩陣運算和解方程的方法——這些在實際工作中MATLAB可以代勞,關鍵的是要深入理解幾個基礎而又重要的概念:子空間(Subspace),正交(Orthogonality),特徵值和特徵向量(Eigenvalues and eigenvectors),和線性變換(Linear transform)。從我的角度看來,一本線代教科書的質量,就在於它能否給這些根本概念以足夠的重視,能否把它們的聯絡講清楚。Strang的這本書在這方面是做得很好的。
而且,這本書有個得天獨厚的優勢。書的作者長期在MIT講授線性代數課(18.06),課程的video在MIT的Open courseware網站上有提供。有時間的朋友可以一邊看著名師授課的錄影,一邊對照課本學習或者複習。
-
概率和統計 (Probability and Statistics):
概率論和統計的入門教科書很多,我目前也沒有特別的推薦。我在這裡想介紹的是一本關於多元統計的基礎教科書:
Applied Multivariate Statistical Analysis (5th Ed.) by Richard A. Johnson and Dean W. Wichern
這本書是我在剛接觸向量統計的時候用於學習的,我在香港時做研究的基礎就是從此打下了。實驗室的一些同學也借用這本書學習向量統計。這本書沒有特別追求數學上的深度,而是以通俗易懂的方式講述主要的基本概念,讀起來很舒服,內容也很實用。對於Linear regression, factor analysis, principal component analysis (PCA), and canonical component analysis (CCA)這些Learning中的基本方法也展開了初步的論述。
之後就可以進一步深入學習貝葉斯統計和Graphical models。一本理想的書是
Introduction to Graphical Models (draft version). by M. Jordan and C. Bishop.
我不知道這本書是不是已經出版了(不要和Learning in Graphical Models混淆,那是個論文集,不適合初學)。這本書從基本的貝葉斯統計模型出發一直深入到複雜的統計網路的估計和推斷,深入淺出,statistical learning的許多重要方面都在此書有清楚論述和詳細講解。MIT內部可以access,至於外面,好像也是有電子版的。
-
分析 (Analysis):
我想大家基本都在大學就學過微積分或者數學分析,深度和廣度則隨各個學校而異了。這個領域是很多學科的基礎,值得推薦的教科書莫過於
Principles of Mathematical Analysis, by Walter Rudin
有點老,但是絕對經典,深入透徹。缺點就是比較艱深——這是Rudin的書的一貫風格,適合於有一定基礎後回頭去看。
在分析這個方向,接下來就是泛函分析(Functional Analysis)。
Introductory Functional Analysis with Applications, by Erwin Kreyszig.
適合作為泛函的基礎教材,容易切入而不失全面。我特別喜歡它對於譜論和運算元理論的特別關注,這對於做learning的研究是特別重要的。Rudin也有一本關於functional analysis的書,那本書在數學上可能更為深刻,但是不易於上手,所講內容和learning的切合度不如此書。
在分析這個方向,還有一個重要的學科是測度理論(Measure theory),但是我看過的書裡面目前還沒有感覺有特別值得介紹的。
-
拓撲 (Topology):
在我讀過的基本拓撲書各有特色,但是綜合而言,我最推崇:
Topology (2nd Ed.) by James Munkres
這本書是Munkres教授長期執教MIT拓撲課的心血所凝。對於一般拓撲學(General topology)有全面介紹,而對於代數拓撲(Algebraic topology)也有適度的探討。此書不需要特別的數學知識就可以開始學習,由淺入深,從最基本的集合論概念(很多書不屑講這個)到Nagata-Smirnov Theorem和Tychonoff theorem等較深的定理(很多書避開了這個)都覆蓋了。講述方式思想性很強,對於很多定理,除了給出證明過程和引導你思考其背後的原理脈絡,很多令人讚歎的亮點——我常讀得忘卻飢餓,不願釋手。很多習題很有水平。
-
流形理論 (Manifold theory):
對於拓撲和分析有一定把握時,方可開始學習流形理論,否則所學只能流於浮淺。我所使用的書是
Introduction to Smooth Manifolds. by John M. Lee
雖然書名有introduction這個單詞,但是實際上此書涉入很深,除了講授了基本的manifold, tangent space, bundle, sub-manifold等,還探討了諸如綱理論(Category theory),德拉姆上同調(De Rham cohomology)和積分流形等一些比較高階的專題。對於李群和李代數也有相當多的討論。行文通俗而又不失嚴謹,不過對某些記號方式需要熟悉一下。
雖然李群論是建基於平滑流形的概念之上,不過,也可能從矩陣出發直接學習李群和李代數——這種方法對於急需使用李群論解決問題的朋友可能更加實用。而且,對於一個問題從不同角度看待也利於加深理解。下面一本書就是這個方向的典範:
Lie Groups, Lie Algebras, and Representations: An Elementary Introduction. by Brian C. Hall
此書從開始即從矩陣切入,從代數而非幾何角度引入矩陣李群的概念。並通過定義運算的方式建立exponential mapping,並就此引入李代數。這種方式比起傳統的通過“左不變向量場(Left-invariant vector field)“的方式定義李代數更容易為人所接受,也更容易揭示李代數的意義。最後,也有專門的論述把這種新的定義方式和傳統方式聯絡起來。
相關推薦
機器學習經典書籍&論文
apn 優化方法 alua exp sets 教授 control href 平滑 原文地址:http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html 入門書單 1.《數學之美》PDF6 作者吳軍大家都很熟悉。以極為通
機器學習經典書籍和論文集合
原文地址:http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html 入門書單 1.《數學之美》PDF6 作者吳軍大家都很熟悉。以極為通俗的語言講述了數學在機器學習和自然語言處理等領域的應用。 2.《Programming C
資源下載| 機器學習經典書籍《統計學習方法》(Python3.6)程式碼實現(及課件)
本文來自GitHub黃海廣 《統計學習方法》可以說是機器學習的入門寶典,許多機器學習培訓班、網際網路企業的面試、筆試題目,很多都參考這本書。本站根據網上資料用Python復現了課程內容,並提供本書的程式碼實現、課件下載。 《統計學習方法》,作者李航,本書全面系統地介紹了統計學習的主要方法,特
機器學習經典書籍
入門書單 《數學之美》 PDF 作者吳軍大家都很熟悉。以極為通俗的語言講述了數學在機器學習和自然語言處理等領域的應用。 《Programming Collective Intelligence》(《集體智慧程式設計》)PDF 作者Toby Segaran也是《BeautifulData : The St
機器學習經典書籍--入門書-入門--深入--數學基礎
概率和統計 (Probability and Statistics): 概率論和統計的入門教科書很多,我目前也沒有特別的推薦。我在這裡想介紹的是一本關於多元統計的基礎教科書: Applied Multivariate Statistical Analysis (5th Ed.) by Richard A.
計算機視覺/機器學習/深度學習 經典書籍整理
1. 機器學習(最經典的兩本書) Pattern Recognition and Machine Learning. PDF Machine Learning: A Probabilistic Prospective. PDF 統計學習方法-李航
機器學習經典算法具體解釋及Python實現--線性回歸(Linear Regression)算法
ica single 方便 最好的 而且 == show des fun (一)認識回歸 回歸是統計學中最有力的工具之中的一個。機器學習監督學習算法分為分類算法和回歸算法兩種,事實上就是依據類別標簽分布類型為離散型、連續性而定義的。顧名思義。分類算法用於離散型分布
Python3入門機器學習--經典算法與應用|Python3機器學習
python3機器學習Python3入門機器學習--經典算法與應用網盤地址:https://pan.baidu.com/s/1JU3xUckrJ6mIFmbPZ2SE-g 密碼: b4i8備用地址(騰訊微雲):https://share.weiyun.com/1a5b40b998601d64fb5211c21
人工智能-機器學習等書籍收藏
目錄 17. 人工智能 https docs pdf 中文版 doc targe 目錄清單下載: 《圖解機器學習》([日]杉山將) 掃描版.pdf: 下載 深度學習Deep Learning 中文版 2017.pdf: 下載 神經網絡與深度學習 【吳岸城】.pdf:
機器學習經典總結---入門必讀----心血總結
轉自 飛鳥各投林 史上最強----機器學習經典總結---入門必讀----心血總結-----回味無窮 讓我們從機器學習談起 導讀:在本篇文章中,將對機器學習做個概要的介紹。本文的目的是能讓
機器學習經典模型簡單使用及歸一化(標準化)影響
俗話說的好,不動手就永遠不知道該怎麼做,上次一聽說要做這個的時候人都懵了,聽了幾次似乎都摸不到門道,這次花了幾天時間去寫了寫,總算是摸到了點門道。 實驗 資料集 這次用到的資料集是跟火電廠有關的,都是匿名特徵,資料量為20160*170,做到最後發現只根據時間順序就能做的比較好。 歸一化 先來講講歸
機器學習經典模型簡單使用及歸一化(標準化)影響測試
集成 ict 過多 roc 簡單 max 都是 p s 方式 俗話說的好,不動手就永遠不知道該怎麽做,上次一聽說要做這個的時候人都懵了,聽了幾次似乎都摸不到門道,這次花了幾天時間去寫了寫,總算是摸到了點門道。 實驗 數據集 這次用到的數據集是跟火電廠有關的,都是匿名特
標準化/歸一化對機器學習經典模型的影響
歸一化 資料標準化(歸一化)處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對
標準化和歸一化對機器學習經典模型的影響
歸一化 歸一化也稱標準化,是處理資料探勘的一項基礎工作,使用歸一化的原因大體如下: 資料存在不同的評價指標,其量綱或量綱單位不同,處於不同的數量級。解決特徵指標之間的可比性,經過歸一化處理後,各指標處於同一數量級,便於綜合對比。求最優解的過程會變得平緩,更容易正確收斂。即能提高梯度下降求最優解時的速度。提
《Python機器學習經典例項》完整版 中文PDF+英文PDF+原始碼 下載
用火的Python語言、通過各種各樣的機器學習演算法來解決實際問題! 書中介紹的主要問題如下。 - 探索分類分析演算法並將其應用於收入等級評估問題 - 使用預測建模並將其應用到實際問題中 - 瞭解如何使用無監督學習來執行市場細分 - 探索資料視覺化技術以多種方式與資料進行互動 -
史上最強----機器學習經典總結---入門必讀----心血總結-----回味無窮
在本篇文章中,我將對機器學習做個概要的介紹。本文的目的是能讓即便完全不瞭解機器學習的人也能瞭解機器學習,並且上手相關的實踐。這篇文件也算是EasyPR開發的番外篇,從這裡開始,必須對機器學習瞭解才能進一步介紹EasyPR的核心。當然,本文也面對一般讀者,不會對閱讀有相關的前提要求。 在進入正
分享 《Python機器學習經典實例》(高清中文版PDF+高清英文版PDF+源代碼)
process roc water watermark type alt 代碼 tex mar 下載:https://pan.baidu.com/s/147VG6ub74qi-4xPvpSMP4w 《Python機器學習經典實例》(高清中文版PDF+高清英文版PDF+源代碼
機器學習資料處理時label錯位對未來資料做預測 機器學習經典模型簡單使用及歸一化(標準化)影響
這篇文章繼上篇機器學習經典模型簡單使用及歸一化(標準化)影響,通過將測試集label(行)錯位,將部分資料作為對未來的預測,觀察其效果。 實驗方式 以不同方式劃分資料集和測試集 使用不同的歸一化(標準化)方式 使用不同的模型 將測試集label錯位,計算出MSE的大小 不斷增大錯位的
SAS學習經典書籍
General Statistics The Little SAS Book, for Enterprise Guide 4.2 by Susan J. Slaughter and Lora D. Delwiche The Little SAS Book, Fourth Ed
機器學習實戰書籍和程式碼分享 | 【PCA簡介】
開頭先上圖 機器學習是人工智慧研究領域中的一個極其重要的方向。在現今大資料時代的背景下捕獲資料並從中萃取有價值的資訊或模式使得這一過去為分析師與數學家所專屬的研究領域越來越為人們矚目。 本書第一部分主要介紹機器學習基礎,以及如何利用演算法進行分類,並逐步介紹了多種經典的監督學習演