1. 程式人生 > >資料探勘人員工作領域大致可分為三類【轉知乎某人的觀點】

資料探勘人員工作領域大致可分為三類【轉知乎某人的觀點】

一、目前國內的資料探勘人員工作領域大致可分為三類。

·        1)資料分析師:在擁有行業資料的電商、金融、電信、諮詢等行業裡做業務諮詢,商務智慧,出分析報告。

·        2)資料探勘工程師:在多媒體、電商、搜尋、社交等大資料相關行業裡做機器學習演算法實現和分析。

·        3)科學研究方向:在高校、科研單位、企業研究院等高大上科研機構研究新演算法效率改進及未來應用。

二、說說各工作領域需要掌握的技能。
(1).
資料分析師

·        需要有深厚的數理統計基礎,但是對程式開發能力不做要求。

·        需要對與所在行業有關的一切核心資料有深入的理解,以及一定的資料敏感性培養。

·        經典圖書推薦:《概率論與數理統計》、《統計學》推薦David Freedman版、《業務建模與資料探勘》、《資料探勘導論》、《SAS程式設計與資料探勘商業案例》、《Clementine資料探勘方法及應用》、《Excel 2007 VBA參考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。

(2).資料探勘工程師

·        需要理解主流機器學習演算法的原理和應用。

·        需要熟悉至少一門程式語言如(PythonCC++JavaDelphi等)。

·        需要理解資料庫原理,能夠熟練操作至少一種資料庫(

MysqlSQLDB2Oracle等),能夠明白MapReduce的原理操作以及熟練使用Hadoop系列工具更好。

·        經典圖書推薦:《資料探勘概念與技術》、《機器學習實戰》、《人工智慧及其應用》、《資料庫系統概論》、《演算法導論》、《Web資料探勘》、《 Python標準庫》、《thinking in Java》、《Thinking in C++》、《資料結構》等。

(3).科學研究方向

·        需要深入學習資料探勘的理論基礎,包括關聯規則挖掘AprioriFPTree)、分類演算法(C4.5KNNLogistic RegressionSVM) 、聚類演算法

KmeansSpectral Clustering)。目標可以先吃透資料探勘10大演算法各自的使用情況和優缺點。

·        相對SASSPSS來說R語言更適合科研人員The R Projectfor Statistical Computing,因為R軟體是完全免費的,而且開放的社群環境提供多種附加工具包支援,更適合進行統計計算分析研究。雖然目前在國內流行度不高,但是強烈推薦。

·        可以嘗試改進一些主流演算法使其更加快速高效,例如實現Hadoop平臺下的SVM雲演算法呼叫平臺--web 工程呼叫hadoop叢集

·        經典圖書推薦:《機器學習》《模式分類》《統計學習理論的本質》《統計學習方法》《資料探勘實用機器學習技術》《R語言實踐》,英文素質是科研人才必備的《Machine Learning: A ProbabilisticPerspective》《Scaling up Machine Learning : Parallel andDistributed Approaches》《Data Mining Using SAS Enterprise Miner :A Case Study Approach》《Python for Data Analysis》等。