挑選合適的機器學習資料
挑選合適的機器學習資料
- 商業人群
- 對機器學習感興趣的商務人士
- 在項目中應用機器學習的經理人
- 學術人群
- 機器學習專業的本科生或研究生
- 機器學習領域的研究人員
- 利用機器學習建模的其他領域的研究人員
- 工程人群
- 實現算法的編程人員
- 交付一次性預測信息的開發人員
- 改進軟件和服務的工程師
- 數據人群
- 希望獲得商業問題優化方案的數據科學家
- 希望能更好地解釋數據的數據分析師
商業人群
通常來講,這類人群希望在商業上有效地使用機器學習,但並不需要掌握其算法或工具的實現細節。在商業領域,機器學習技術已經廣泛地用於預測分析。
對機器學習感興趣的商務人士
這類人群包括總經理及咨詢顧問,對他們而言,機器學習會對以後的項目和策劃起到戰略指導的作用。
以下資源對此類人群做戰略思考會有幫助:
- Gartner‘s Magic Quadrant for Advanced Analytics Platforms, 2015
- Gartner‘s Machine Learning Drives Digital Business, 2014
- McKinsey’s An executive’s guide to machine learning, 2015
項目經理人
機器學習對於這類人群負責的項目非常適用。對他們來說,有用的資料是關於各種問題和算法的全面概括,而不需要關註太多細節。
可以參考以下書籍:
- Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die
- Data Science for Business: What you need to know about data mining and data-analytic thinking
- Data Smart: Using Data Science to Transform Information into Insight
學術人群
通常來講,這類人群主要指學生,包括本科生、研究、博士後、研究助理等。
學術人群可能會花大量時間研究他們論文中的某個機器學習算法。 在此,我推薦他們看一篇文章 How to Research a Machine Learning Algorithm,了解關於算法方面的研究。
機器學習專業的本科生或研究生
機器學習專業的學生通常會上一些關於技術和算法的課程,因此他們對相關的具體問題會更感興趣。學生一般比較專註,也有時間深入去鉆研。這類人群最好閱讀教科書。
以下是機器學習領域裏最好的教科書:
- Learning from Data
- Machine Learning: A Probabilistic Perspective
- Pattern Recognition and Machine Learning
- The Elements of Statistical Learning: Data Mining. Inference. and Prediction
機器學習領域的研究人員
機器學習領域的研究人員會深入了解機器學習的某個方面,並努力去擴展該領域。研究人員對本專業的研究論文、期刊、組織、網絡等很感興趣。教科書對他們來說,可就不適用了。他們需要參考一些知名度高的期刊和論文集:
- Journal of Machine Learning Research (JMLR)
- Neural Information Processing Systems (NIPS)
- Knowledge Discovery and Data Mining (SIGKDD)
- International Conference on Machine Learning (ICML)
看一下 Quora 上關於 What are the best conferences and journals about machine learning?。
這兒有一個排名前 50 位的人工智能期刊列表。
利用機器學習建模的其他領域的研究人員
其他領域的研究人員可能也會對機器學習感興趣,但是是把它當作工具。他們更關註用自己的數據建造描述性或預測性的模型。例如,客戶研究、地質學、或者生物學領域的科學家有他們自己的數據集。他們會用建模的方法來預測未來可能會發生的問題。
相比於模型的準確度,他們更關註模型的可解釋性。因此,從統計學借鑒過來的簡單易懂的方法更易被接受,例如線性回歸和邏輯回歸。
當然,好的系統化過程仍然是必要的。
我會推薦“工程人群”裏提到的資源,尤其是針對交付一次性預測信息的開發人員的部分。另外可以看一下“數據人群”裏數據科學家那部分。
工程人群
工程人群基本上是開發人員,他們希望將機器學習用於自己項目的解決方案中。對於開發人員,推薦一篇很好的文章 Machine Learning for Programmers。
工程人群可以從答疑網站的機器學習社區中獲得很多幫助和支持。更多的信息,可以參考文章 Machine Learning Communities。
實現算法的編程人員
對於編程人員來說,一個很好的掌握機器學習技能的方法是:從零基礎開始,利用現有的編程能力實現機器學習的算法。
這個方法我講過很多次,也在我的博文 Understand Machine Learning Algorithms By Implementing Them From Scratch 中提供了很棒的小竅門和資源。
在這篇博文中,我還針對這個方法推薦了三本書
- Data Science from Scratch: First Principles with Python
- Machine Learning in Action
- Machine Learning: An Algorithmic Perspective
交付一次性預測信息的開發人員
一個開發人員不一定得是很棒的程序員,而編程也不需要交付一個準確可靠的預測模型。
一個一次性的預測模型可以在商業環境中提供一套預測信息。在自學、處理實際數據集甚至在機器學習競賽中,這種模型都算是非常理想的。
如果你經歷過系統地解決問題的全部過程,並提供出一個獨立的模型,你將獲益良多。
- Data Mining: Practical Machine Learning Tools and Techniques
- Applied Predictive Modeling
你可以從我的博文 Process for working through Machine Learning Problems 中了解到端對端的解決機器學習問題的系統流程。
改進軟件和服務的工程師
一個工程師要想在他們的軟件項目中加入機器學習,需要掌握的知識包括算法、端對端解決問題、以及在軟件實際運轉的情況下如何讓算法可靠執行。這類人群是從前面的兩類人群成長而來的,稱他們為機器學習工程師可能更恰當。他們致力於使用高速的算法來提供準確可靠的結果,並在二者中尋求平衡。這類人群也大量使用了機器學習書庫和基礎架構。
在啟動中的機器學習書庫中,包括如下有用的資源:
- Building Machine Learning Systems with Python
- Learning scikit-learn: Machine Learning in Python
- Practical Data Science with R
- Machine Learning with R
另外,還可以參閱文章 Building a Production Machine Learning Infrastructure。
數據人群
通常來說,這類人群主要跟數據打交道,但可能也需要用到機器學習的知識。
希望獲得商業問題優化方案的數據科學家
一名優秀的數據科學家,絕不能停止學習。你必須了解最新的數據流、技巧和算法。這包括你需要用來描述數據和創建預測模型的機器學習技能。無論是“工程人群”項下列出的更為實用的資源中,還是“學術人群”項下列出的更為理論化的資源,數據科學家都可以獲取自己需要的資源。
但是一些以數據科學為主的機器學習資源既有實用性又有理論性,這些資源包括:
- Applied Predictive Modeling
- An Introduction to Statistical Learning: with Applications in R
- Machine Learning for Hackers
希望能更好地解釋數據的數據分析師
數據分析員主要對商業利益背景下的數據解釋感興趣。有時,機器學習算法有助於得出性能更好的模型。這些模型大多為描述模型,但是有時也包括預測模型。和“其他領域的研究人員”這個群體一樣,這個群體可能在統計學和統計推論上有著良好的基礎。另外,由於他們對描述模型最感興趣,因此掌握線性回歸和邏輯回歸之類的經典算法可能就足夠了。相對於準確性,所得模型的解釋能力更好。
從統計推論的角度而言,上文提到的資源很很有用。
挑選合適的機器學習資料