1. 程式人生 > >心得丨一文告訴你想學資料分析該讀什麼書、從哪本讀起

心得丨一文告訴你想學資料分析該讀什麼書、從哪本讀起

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

作者:三郎

因工作原因要學習一些資料的知識,從人人都是產品經理網站上並沒有找到一篇從入門到進階成體系的文章,且查詢的分享都是資料體系中一個分支的分支,整體看起來煙霧繚繞,經一位前輩點播還是先從書籍中建立整體的認知再看這些碎片化的知識,才能更有體會(手動@前輩譚小超,私聊的感受就是人的超級平易近人,受我一拜orz),故有了這篇內容。

文章內容整理至知乎,感謝兩位大佬的分享,其中@知乎使用者 張溪夢 Simon、DataCastle

part 1 | 入門版

適合對資料分析的入門者,對資料分析沒有整體概念的人,常見於應屆畢業生,經驗尚淺的轉行者。

0?wx_fmt=png

HeadFirst類的書籍,一向淺顯易懂形象生動,可以對分析概念有個全面的認知。——Simon

深入淺出資料分析:把這本書放在第一順序,是因為它真的很簡單,但是能夠讓你對資料分析的一些基本概念有大致的瞭解。即便是你毫無資料分析經驗,一兩天也足夠讀完整本書了。這本書的實操性並不強,所以也不建議你去跟著實踐,瞭解作者傳達出來的資料分析基本思想和原則就OK了,這對你建立巨集觀的視野,和接下來的學習很有幫助。

另外,書中提到的一些案例,比如提升化妝品銷量、分析星巴克銷量、生產線最優解、網站ABtest、競品分析、薪資預測等等,看起來很簡單,但其實都是工作最常見的一些分析場景。這對資料思維的養成,非常有幫助。

個人覺得書中最有用的一些點:

  • 統計學概念在資料分析中的作用:比如方差、標準差、相關係數、均方根誤差等; 集中資料分析的基本方法:假設檢驗、迴歸分析、誤差分析等; 統計圖形分析:散點圖、直方圖等來探索資料中隱藏的規律; 資料庫以及資料整理。

這本書很讓你掌握資料分析技術,過一遍即可。

0?wx_fmt=png

誰說菜鳥不會資料分析:不僅講解了一些常見的分析技巧,並附帶excel的一些知識及資料分析再公司中所處的位置,對職場瞭解亦有一定幫助。

0?wx_fmt=png

赤裸裸的統計學:作者年輕時是個追求學習意義的學霸,後來自己從統計學中發掘了很多可以應用到生活的地方。這也是本書的主旨,結合生活講解統計知識,生動有趣。可以避免統計學一上來就大講貝葉斯概率和隨機分析的枯燥。

0?wx_fmt=png

統計數字會撒謊:知名度高,但是還沒看過…

part 2 | 進階版

具有一定的行業針對性,要求具備一定的分析常識,適合網站分析師,商業分析師以及資料產品經理。

0?wx_fmt=png

深入淺出統計學: HeadFirst類書籍,可以幫助你快速瞭解統計方面的知識。——Simon

非常非常基礎的統計書,適合任何一個沒有基礎的小白,文科生也能看懂。有人說這本書簡直太簡單了,但是對於資料分析來說,需要用到的恰好是這些最簡單的東西。比如基本的統計量,基本上每個分析專案中都會用到。比如基本的概率分佈,總體與樣本的概念、置信區間、假設檢驗、迴歸分析,我去,都是為資料分析定製的統計學知識。

所以強烈推薦這本,其他的比較深度的書,並不建議在入門的階段去啃,一方面是很多難以理解,二是即便你花大力氣學習了,入門的階段你也不怎麼能在實踐中使用。當然多學一些是沒有壞處的,但你需要知道在什麼時候學習哪些東西價效比最高。或者你自我感覺良好,誓要學最難的,從入門到放棄,得不償失。

總結起來,需要重點了解的統計學知識如下:

  • 基本的統計量:均值、中位數、眾數、方差、標準差、百分位數等; 概率分佈:幾何分佈、二項分佈、泊松分佈、正態分佈等; 總體和樣本:瞭解基本概念、抽樣的概念;

這本書非常的簡單,但是基本的資料分析的一些方法都有了,你需要做的,是利用之前學過的Python 的一些庫(pandas、Numpy、matplotlib)來實現這些資料分析的方法、實現基本的視覺化來進行圖形化的分析。——DataCastle

0?wx_fmt=png

MySQL必知必會:這本也是我當年學習SQL的入門書,薄冊子一本,看起來很快。SQL是個價效比很高的技能,簡單而強大。任何想進一步提高自己資料分析技能的產品/運營/分析師 同學,都建議點亮這個技能點。——Simon

這本書把SQL寫的非常簡單,沒辦法,SQL確實也很簡單。其實pandas 就已可以實現很多資料管理的工作,而瞭解SQL 的意義在於融入到實際的資料使用的場景。比如企業的資料,多是以資料庫的形式儲存起來的,那麼如果你需要去呼叫你需要的那部分資料,那麼SQL就是必須的技能。如果你在最開始就想用公司的資料來練習,那麼你可以把這本書的閱讀放到最前面。(當然,如果你不回遇到資料提取的問題,SQL這部分也可以暫時不管,對具體的資料分析沒有影響,等到你真正需要用到SQL的時候再學習。)

MySQL本身比較簡單,對於資料分析師來說,只需要掌握基本的語句和技巧,能夠進行基本的資料提取和處理就能夠應對一般的資料分析需求了。

書中重點掌握以下幾個點:

  • SELECT語句:讓你能夠去提取你需要的那部分資料; DELETE和UPDATE:知道怎麼實現資料的增、刪、改; 資料過濾:where、and、or、萬用字元等過濾方式; 資料的彙總和分組、資料庫連線:應對更加複雜的資料和相關聯的資料; 子查詢:查詢中的查詢。

當然還是希望你去公司的資料庫找一些資料來進行練習,如果不方便的話,也可以直接用上述UCI資料集中的資料來進行實踐。

如果遇到問題,可以去菜鳥教程查詢相關操作。

MySQL 教程 | 菜鳥教程

好了,恭喜,你已經基本入門了。到此,你就完全可以去進行一個完整的資料分析專案了,如果你沒有頭緒,可以去找一些行業的分析報告來看看,找一找分析的思路。能夠獨立完成一些專案,通過資料分析能夠得出一些深刻的結論,能夠給人以視覺化的形式將結果描述出來,能夠基於歷史資料對未來的一些情況進行預測,那麼一般的資料分析崗位,完全可以勝任了。

網際網路增長的第一本資料分析手冊:GrowingIO出的一本資料分析的增長手冊,為大家提供常見的分析手段講解,如漏斗分析,同期群分析等等。可在GrowingIO技術論壇中免費下載。

0?wx_fmt=png

利用Python進行資料分析:這應該是最經典的資料分析書之一了,作者是pandas 庫的作者WesMcKinney 。所以這本書對於pandas 的理解,應該是非常深刻的,而利用梳理介紹的pandas、bumpy、matplotlib 等庫,應對一般的資料分析,完全足夠了。

書中應該重點掌握的一些點:

  • IPython Notebook 的使用:最適合小白的程式碼編寫環境,非常容易上手; 科學計算庫 Numpy:陣列和向量計算、學會利用陣列進行資料處理; 資料處理及分析工具 pandas:資料查詢,缺失值、重複值、異常值的處理,資料的合併與規整化,基本的描述性分析及視覺化; 視覺化工具 matplotlib:用這個庫,基本的資料視覺化問題皆可以解決了。

看上去是不是很簡單,這本書就是教會你如何開始使用Python 進行資料分析,當然首推的就是pandas ,不僅可以做資料的預處理,還能夠做基本的資料分析和視覺化。這個庫一定是你開始入門的時候需要重點學習的,其次用Numpy 進行陣列的計算、利用matplotlib 進行視覺化的描述性分析,也是同步需要掌握的東西。

但是,這個部分光看書是遠遠不夠的,你可以儘量去找一些可以練手的資料集,來實際操作和呼叫這些庫的功能,確保熟練資料分析中最常用的函式和模組。如果糾結去哪找練手的資料,推薦UCI經典資料集。

關於pandas、Numpy、matplotlib 網上應該可以搜尋到很多有用的資料、教程,可以看一看別人的使用技巧、應用場景,並通過練習轉化成自己的經驗。

因為Python 庫的更新迭代非常快,這本書裡額一些內容其實已經“過時”了,這裡也非常建議你去檢視一些官方的文件,基本上你需要的都能查到。

另外,在進行一些資料處理、資料分析的時候,你可能需要去了解一些更細節的Python 的用法,這裡就不推薦書了,因為你沒必要去系統地學,按照這個菜鳥教程看看或者查詢相關的用法就OK了。

part 3 | 高階版

更高階的資料相對來說專業性較強了,如涉及到企業內部資料治理,資料結合的業務分析,資料視覺化等。當然,還有資料探勘演算法之類的更深入的東西,這塊沒有研究就不瞎推薦了

0?wx_fmt=png

精益資料分析:此書優勢在於將企業分成了幾個大的行業類別,並分門別類的講解了每個行業的商業模式特點及分析技巧,對使用者的分析能力要求較高,且必須具備相應的業務知識。——Simon

書中主要講到各種產品中用到的指標和模型,這是一本寫給產品經理的書,其中並沒有具體的資料分析技術,涉及到的更多是資料驅動型產品的一些思路。

比如怎麼將資料驅動的產品落地,怎麼為產品設計資料指標,哪些指標對於產品迭代優化更有效,如何依靠資料分析來驅動使用者增長等等。——DataCastle

0?wx_fmt=png

資料之美:本書通過世界上最好的資料工作者的示例,向讀者展示處理資料的方法。本書使得讀者可以站在優秀的資料設計師、管理者和處理者的肩上,去仔細審視涉及到資料的一些最有趣的專案。

0?wx_fmt=png

決戰大資料:阿里巴巴前資料副總裁車品覺老師所著,講解了阿里巴巴在企業內部治理資料過程中的新的,所講“存-通-用”資料管理三板斧和“從資料化運營到運營資料”,字字珠璣,可堪借鑑。

0?wx_fmt=png

The Wall Street Journal Guide to Information Graphics:華爾街日報負責商業分析的人做的視覺化指南,精華且實用,之前做的讀書筆記可供參考。

0?wx_fmt=png

資料科學實戰:這本書應該是資料分析和資料探勘(機器學習)之間的橋樑。從探索性的資料分析開始,通過資料分析的思維,引出了機器學習的基本演算法:迴歸分析、k近鄰、k均值。接著通過不同的應用場景分別介紹了最常見的機器學習演算法,以及在真實場景的應用。

對於做了一段時間資料分析工作的人,這無疑是進階更高維度的好書,很難有一本書,能夠讓你從簡單的資料分析平滑地渡到機器學習和資料探勘,這本書我認為是這方面做的最好的一本。

所以如果你在做一些探索性的分析遇到瓶頸之後,自然而然會進入資料探勘和機器學習演算法的坑,因為只有更高階的演算法和模型,才能夠支撐大規模的資料的預測。

下面列出一些書中有意思也比較有用的點:

  • 瞭解探索性資料分析,為更高階的需求打好基礎; 瞭解機器學習的基本演算法、k近鄰、k均值等; 用樸素貝葉斯方法做垃圾郵件的過濾; 線性迴歸和邏輯迴歸的分析方法; 如何從資料中獲取結論,從資料探勘競賽開始; 構建自己的推薦系統; 資料洩漏與模型評價,如何篩選模型。

part 4 | 推薦關注

在知乎上有不少資料分析及Growth的大牛,在這裡推薦幾位我熟悉的,經常會寫一些相關的文章:

覃超,前Facebook 早期工程師,關於增長黑客寫了許多優秀的文章;

鄒昕,Facebook 使用者增長資料分析,在資料分析方面很有見解;

範冰,【增長黑客】一書作者,人非常有趣,同事也非常推薦【增長黑客】這本書;

曾加,螞蟻金服 BI-資料分析,數學方面的牛人;

何明科,專注於資料和網際網路產品,許多回答很值得細看

對於推薦的書籍來講,有一位前輩能對這本書有所評價並告訴後輩的,無異於考試時書上畫了重點,所以,關於資料分析的書,有這麼一篇就夠了。

但是關於產品的書,從網上找到的書單涉及到的書太多,因為產品經理需要對各個方面都有所瞭解,要對各個領域都列出個書單的話,也沒時間看,畢竟人的精力是有限的,還是要有所選擇。

這裡想講一個選書的方法,將每一位大牛列出的書單視作他們的一個產品,將產品領域各位大牛的書單做個競品分析,列出每個書單的相同點,也就是找出每份書單都會出現的書,對於新人來說,從這些書中開始讀,準沒錯。

產品崗位是近幾年才逐漸有了系統化的培訓,在之前魚龍混雜的時代有人出了一本書各個產品人一定都有所涉獵,而那個時候產品可選擇的書籍並不多,這些人中又漸漸了出了大神,值得被多位大神站臺的書籍,就是對內容最好的保障。

一個真心喜歡工作的2年產品新人,目前學習的方法是通過書籍掌握基礎脈絡再通過碎片化的文章往不同的方向延伸,期望只通過能力而不通過公司的背景和光環被人認可。

0?wx_fmt=jpeg