1. 程式人生 > >自學數據分析書單2

自學數據分析書單2

con 教育 com height 快速 nco -a 不能 raw

摘自知乎作者 作者:浩彬老撕
鏈接:https://www.zhihu.com/question/19640095/answer/102044584
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。

#關於這份學習清單#

我會按照基礎到入門給出詳細推薦,並且附上個人點評。同時盡量做到各個資料在內容上並不重復(即使內容上有重復,也會在難度上做出區分),希望可以以最直接的方式告訴大家應該怎麽選擇。

Ps:這是第一版學習指南,由於最近時間比較緊張,預計在第二版中會加入業務材料的推薦和更多的學習索引,歡迎關註。



1先驗知識

由於統計學概率論甚至到機器學習會對數學基礎有一定要求,所以這裏給出一些先驗知識的內容推薦,主要是矩陣方面。

1.1 課程

可汗學院公開課:線性代數課程

技術分享

可汗學院公開課:線性代數

因為網易公開課有翻譯,這裏是中文字幕課程鏈接,這裏真要給網易100個贊,字幕做得很好。

“可汗學院(Khan Academy),是由孟加拉裔美國人薩爾曼·可汗創立的一家教育性非營利組織,主旨在於利用網絡影片進行免費授課,現有關於數學、歷史、金融、物理、化學、生物、天文學等科目的內容,教學影片超過2000段,機構的使命是加快各年齡學生的學習速度。”

1.2 參考書籍

(1)線性代數 豆瓣評分7.3

技術分享

清華居余馬老師的線性代數教材,比較經典的教材了,裏面的知識足夠支撐我們後續統計分析和機器學習需要。

(2)高等代數 豆瓣評分8.1

技術分享

相比於線性代數,高等代數更加深入,一般線性代數為非數學專業所用,數學類專業一般學習高等代數。不過一般情況下,線性代數也足夠使用了。

當然,在後續學習中有些算法也會用到微積分的知識,但是都比較基礎,因此遇到不懂的時候直接查資料即可,就沒有特定推薦材料了。




2統計分析學習資料

2.1 統計學/概率課程

同樣推薦可汗學院的統計學和概率課程,而且剛好這兩門課程也被網易公開課進行了翻譯:

(1) 可汗學院公開課:統計學

技術分享

可汗學院公開課:統計學

(2) 可汗學院公開課:概率

技術分享

可汗學院公開課:概率


這兩本課程總體不算太難,適合入門。個人覺得講授還是蠻有特點的,粗暴直接,另外舉的例子也是蠻有趣的。


2.2統計學/概率參考書

(1)統計學 豆瓣評分8.8
作者William Mendenhall / Terry Sincich

技術分享“《統計學(原書第5版)》內容豐富,很少涉及統計學理論的嚴格數學證明,絕大部分是與實際應用緊密聯系的例子和練習,適合作為理工科各專業本科生、研究生的統計學教材,也可作為相關領域研究人員的參考讀物。”

非常註重實用的統計學課程,偏應用,少數學證明,可讀性比較強

(2)統計學 豆瓣評分7.3
作者:賈俊平,何曉群,金勇進

技術分享統計比較通用的入門教材了,不知不覺竟然到了第六版,個人認為也算是兼顧數學證明和應用,可讀性沒有上面強,但是也非常的通俗易懂,有很多統計學專業的起始教材也會選擇這本。

(3)統計推斷 豆瓣評分8.8,/英本原本9.2
作者:William Mendenhall / Terry Sincich

技術分享非常經典經典的統計學教材,借用介紹“從概率論的基礎開始,通過例子與習題的旁征博引,引進了大量近代統計處理的新技術和一些國內同類教材中不常見而又廣為使用的分布。其內容既包括工科概率入門、經典統計和現代統計的基礎,又加進了不少近代統計中數據處理的實用方法和思想”
可以作為研究生所用教材,有深度,但是作者循序漸進,解釋得非常漂亮



3機器學習資料

3.1機器學習課程

強烈推薦Andrew NG吳恩達的斯坦福機器學習課程,英文授課,但是已有完善的中文字幕,內容非常豐富且充實(20節),並且講解得非常的好,如果你想學習機器學習,一定不能錯過!

技術分享

Coursera地址:

Coursera - Free Online Courses From Top Universities

網易公開課地址:

斯坦福大學公開課 :機器學習課程


同時該課程配有課件講義,同樣建議大家在學習視頻課程之余多看講義和習題,雖然是英文,但是閱讀上基本沒有什麽問題,就講義本身也是非常的棒。

如果大家學習完Andrew NG的機器學習,還想通過其他課程觸類旁通,相互借鑒的話,可以上Coursera上門搜索還有其他選擇,例如臺大的機器學習基礎等等,但毫無疑問首推Andrew NG的課程;

另外現在國內也有越來越多的培訓網站推出相關課程,大家有興趣的可以自己搜搜,這裏就不做推薦了;


3.2機器學習教材

(1)數據挖掘導論 豆瓣評分8.4,/英本原本8.8

作者: Pang-Ning Tan、Michael Steinbach、Vipin Kumar

技術分享

介紹得非常全面的一本書,但可能因為需要涵蓋的內容太多,所以難免有些算法只能簡單介紹。盡管這樣,個人認為也是非常難得一見的入門教材,有一定難度。這本書從簡單的數據開始,到各種分類算法,聚類算法,關聯規則都有相對完整的指引,我認為對於我們構建自身的統計挖掘體系是有很大的幫助。中文版本翻譯還是挺好的,但是英文原版那是極好的。


(2)統計學習方法 豆瓣評分:8.9

作者:李航

技術分享

個人認為中文教材裏面少見的精品,雖然精簡,但邏輯非常的清晰,非常詳細地為我們剖析了算法原理,可能不太適合入門者,但是還是非常值得推薦閱讀學習,建議將《數據挖掘導論》以及《統計學習方法》相互借鑒學習


(3)The Elements of Statistical Learning(統計學習基礎)

豆瓣英本原版評分9.4 中文評分7.4

技術分享

作者:Trevor Hastie

這本書被廣大人民喜稱為ESL,雖然書名是統計學習基礎,但是此書一點都不基礎,一點都不~另外此書還有一本專門的入門版本ISL(後面會介紹)

這本書涵蓋了非常多的內容,講解深入,有人評價說,“有了這本書就不需要其他機器學習教材”,雖然有點誇張,但是此書實際是機器學習的經典巨作,如果你真的希望好好研究機器學習,此書非常值得仔細研讀,另外此書要求不低的統計理論和數學基礎。

此外,這本書還有一個牛逼的地方在於,作者把書放在網上免費下載:

Elements of Statistical Learning: data mining, inference, and prediction. 2nd Edition.





前面都是一些理論知識,但是數據科學裏面實踐應用又是另外一個重中之重,接下來談一下借助工具進行實踐應用的問題,由於Python還在整理當中,本次主要介紹SPSS與R語言



4SPSS學習資料

考慮到SPSS分為統計模塊Statistics以及數據挖掘模塊Modeler , 因此也分為兩大塊介紹


4.1SPSS統計分析資料

SPSS Statistics 市面上的書籍比較多,從我個人的角度,認為張文彤老師的系列足以讓大家加深對統計體系的理解,同時也能很好掌握在實際的應用當中如何使用統計分析幫助我們完成任務,我認為掌握統計分析原理實戰和SPSS操作,以下兩本書足矣。

(1) SPSS統計分析基礎教程 豆瓣評分8.4

技術分享

提供了包括醫療、經濟、市場研究等方面的案例貫穿了全書,能夠很好從實際應用角度把統計分析原理和SPSS操作結合起來,也提供了很好的結果解讀,不失為一本極好的工具指南


(2)高等學校教材(SPSS統計分析高級教程)豆瓣評分7.7

技術分享相比於基礎教材,高級教程介紹了更多的統計算法模型,同時也提供了一些統計新方法和新觀點的講解。整體來說直觀易懂,能夠很好提升實戰能力

另外張文彤老師也有對應視頻課程 《張文彤SPSS初中級教程》以及《張文彤SPSS高級教程》



4.2 SPSS機器學習教程

(1)Modeler官方的幫助文檔和Sample文件

技術分享

Modeler提供完備Sample數據和數據建模文件,並且配套中文說明,可以幫助入門者一步一步搭建數據建模流並理解實際應用場景。Modeler提供的幫助文檔包括有算法說明,節點說明,Crisp-dm方法論,應用文檔等,其中比較重要一本如:《IBM SPSS Modler 應用程序指南》


(2) IBM SPSS數據分析與挖掘實戰案例精粹 豆瓣評分9.3

作者:張文彤,鐘雲飛

技術分享非常詳盡工具手冊,提供了醫療、金融、保險、汽車、快速消費品、市場研究、互聯網等多個行業的數據分析/挖掘案例,基於實戰需求,詳細講解整個案例的完整分析過程,並將模型和軟件的介紹融於案例講解之中,尤其是書本最後幾章實踐案例,從商業問題界定到商業應用,給出了非常詳盡的建模指南,個人認為目前市面上Modeler最好的工具手冊;另外即使不是使用SPSS,而是用其他工具,該書後面的例子也值得大家研讀。



5R語言學習資料

(1)R語言實戰 豆瓣評分8.8

作者:Robert I.Kabacoff

技術分享

首先這本書絕對可以擔當日常工具手冊,從基本操作,數據處理,數據建模,圖形展示都給出了非常詳盡的介紹;其次雖然是工具手冊,但是能夠結合基本統計知識於簡單案例,具有很強實踐性,強烈建議各位把書中的代碼都實現,相信能夠大大提升R的功力。最後說一句,此書翻譯得不錯。


(2)AnIntroduction to Statistical Learning(統計學習導論) 英本版豆瓣評分9.5,中文版7.6

作者:Trevor Hastie,Robert Tibshirani ,Jerome Friedman

技術分享
此書被廣大人民群眾稱為ISL,沒錯,就是上面ESL的入門版本。無論作為統計教材推薦還是R語言教材推薦都稱得上5星的讀物。ISL雖然是入門版本,但是絕對不是因為內容簡單。深入淺出,內容詳細,常常讀完有種恍然大悟的感覺,同時能夠結合R語言介紹,大大的加分。




最後厚顏無恥地介紹我個人的公眾號,wetalkdata,定期更新數據分析,數據挖掘方法,Statistics以及Modeler操作指南(比幫助手冊更詳細),而且還有送書活動!

(二維碼自動識

自學數據分析書單2