[DataAnalysis]資料分析和大資料入門推薦書單
應該是目前網上能搜到的最全和最靠譜的入門書單了,幾乎零基礎(懂一點高數就可以入門),而且基本上都是我看完的書,有一些我看過完全沒用的比如head first SQL等就不列入在內了。算是了了一直想要彙總書單的一個念想。
一、概率論和數理統計基礎
1、《茆詩鬆概率論和數理統計》前七章(大資料的基礎:概率論和相關的數理統計)
1.1、《商務經濟統計學》
茆詩鬆更偏向嚴謹的論斷和課堂式的學習,比較適合正在學校的或者剛出學校的學生。如果想快速瞭解常用的商用概率論和數理統計知識的話,這本是比較不錯的選擇,該瞭解的概率論和數理統計知識都能在上面找到,甚至作為茆詩鬆的補充都綽綽有餘。
2、線性代數(普通高校教材即可,能理解矩陣的運算、特徵值等思想即可、作為工具書碰上了再翻閱)
二、工具類
1、SPSS
1.1、《應用多元統計分析》-朱建平
這本不僅介紹了常見的資料分析和資料探勘方法的spss操作,比如判別分析、聚類分析、因子分析、相應分析、典型相關分析和多維標度法等。更重要的是介紹了各種方法的背後原理和計算公式。
2、R
2.1、《統計建模與R語言》《R in action》二選一,熟悉R語言的基礎操作
2.2、《機器學習與R語言》
以例項方式清楚地講解了如何運用R語言進行常用的機器學習方法建模以及相應的調參,機器學習方法包括:近鄰分析、樸素貝葉斯、決策樹、線性迴歸、神經網路、支援向量機、關聯規則、k均值聚類等。而且包括模型效能的評價和提高模型效能的方法等。
3、Python
Python作為未來一階段內主流的語言,無論是作為爬蟲、資料探勘還是處理資料都是相當強大的工具。
3.1、《python程式設計-從入門到實踐》
零基礎的完美級入門教材,從基礎語法到製作一個遊戲再到web應用程式,perfect。
3.2、《利用python進行資料分析》
日常資料處理和熟悉python不同資料分析的包
3.3、《機器學習實戰》
用python作機器學習,會比R能實現的功能更多
3.4、《從零開始學python網路爬蟲》
爬蟲是網際網路分析必備技能
4、excel
不必專門買書了,常用的功能和函式即可。
常用的聚合函式、vlookup函式和資料透視表,養成良好的資料分析習慣。比如sheet1存放raw_data、sheet2存放加工資料和sheet存放視覺化圖表等。總之excel作為R/Python的補充還是相當有必要的。
5、SQL
5.1、計算機等級考試的二、三級
花一週半的時間看完並且通過即可,那兩本書和真正的商業應用比較脫節,不過作為SQL的入門還是比較不錯的,可以讓你短時間內熟悉Sql的方方面面,經常有人買了SQL的入門書籍半年後還是隻會寫簡單的"select * from table_name limit 1;"。
5.2、《HIVE程式設計指南》
基本上網際網路公司用的都是hadoop等,有hadoop使用經驗對於找到合適的資料分析實習還是有很大幫助的。
三、資料探勘演算法原理
1、《資料探勘導論》
不僅有資料預處理的一些介紹,還包括常用的資料探勘方法原理。
2、《機器學習》
大名鼎鼎的西瓜書。
3、《統計學習方法》
進階書。
4、《統計學習基礎 資料探勘、推理與預測 》
*高階書。
四、其他書籍,各取所需
1、《Web Analytics》
網站分析,以資料驅動決策
2、《實用資料分析》
3、根據自己感興趣的方向自己搜相關書籍或者網站
4、資料結構(相當重要但是我暫時還沒看,所以放在四中,應該單獨成一類)