1. 程式人生 > 其它 >【資料科學】什麼是資料科學家與資料科學

【資料科學】什麼是資料科學家與資料科學

僅僅在幾年前,資料科學家還不是一個正式確定的職業,然而一眨眼的工夫,這個職業就已經被譽為“今後十年IT行業最重要的人才”了。

一、資料科學家的起源

“資料科學”(DataScience)起初叫”datalogy “。最初在1966年由Peter Naur提出,用來代替”電腦科學”(丹麥人,2005年圖靈獎得主,丹麥的計算機學會的正式名稱就叫Danish Society of Datalogy,他是這個學會的第一任主席。Algol 60是許多後來的程式設計語言,包括今天那些必不可少的軟體工程工具的原型。圖靈獎被認為是“計算科學界的諾貝爾獎”。)

1996年,International Federation of Classification Societies (IFCS)國際會議召開。資料科學一詞首次出現在會議(Data Science, classification, and related methods)標題裡。

1998年,C.F. Jeff Wu做出題為“統計學=資料科學嗎? 的演講,建議統計改名資料的科學統計資料的科學家。 (吳教授於1987年獲得COPSS獎,2000年在中國臺灣被選為中研院院士,2004年作為第一位統計學者當選美國國家工程院院士,也是第一位華人統計學者獲此殊榮。)

2002年,國際科學理事會:資料委員會科學和技術(CODATA)開始出版資料科學雜誌。

2003年,美國哥倫比亞大學開始釋出資料科學雜誌,主要內容涵蓋統計方法和定量研究中的應用。

2005年,美國國家科學委員會發表了”Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century”,其中給出資料科學家的定義:

“the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection”

資訊科學與電腦科學家,資料庫和軟體工程師,領域專家,策展人和標註專家,圖書管理員,檔案員等數字資料管理收集者都以可成為資料科學家。它們主要任務是:”進行富有創造性的查詢和分析。” 2012年,O’Reilly媒體的創始人 Tim O’Reilly 列出了世界上排名前7位的資料科學家。

  • Larry Page,谷歌CEO。
  • Jeff Hammerbacher,Cloudera的首席科學家和DJ Patil,Greylock風險投資公司企業家。
  • Sebastian Thrun,斯坦福大學教授和Peter Norvig,谷歌資料科學家。
  • Elizabeth Warren,Massachusetts州美國參議院候選人。
  • Todd Park,人類健康服務部門首席技術官。
  • Sandy Pentland,麻省理工學院教授。
  • Hod Lipson and Michael Schmidt,康奈爾大學電腦科學家。

具體有時間再補充,感興趣的朋友可以Google Scholar一下他們的文獻。

關於資料科學家的更多討論: 你能列出十個著名的女性資料科學家嗎?Can you name 10 famous data scientist women? 誰是最富有的資料科學家?Who are the wealthiest data scientists? 請列出對大資料最具有影響力的20個人?Who Are The Top 20 Influencers in Big Data?

二、資料科學家的定義

資料科學(Data Science)是從資料中提取知識的研究,關鍵是科學。資料科學集成了多種領域的不同元素,包括訊號處理,數學,概率模型技術和理論,機器學習,計算機程式設計,統計學,資料工程,模式識別和學習,視覺化,不確定性建模,資料倉庫,以及從資料中析取規律和產品的高效能運算。資料科學並不侷限於大資料,但是資料量的擴大誠然使得資料科學的地位越發重要。

資料科學的從業者被稱為資料科學家。資料科學家通過精深的專業知識在某些科學學科解決複雜的資料問題。不遠的將來,資料科學家們需要精通一門、兩門甚至多門學科,同時使用數學,統計學和電腦科學的生產要素展開工作。所以資料科學家就如同一個team。

曾經投資過Facebook,LinkedIn的格雷洛克風險投資公司把資料科學家描述成“能夠管理和洞察資料的人”。在IBM的網站上,資料科學家的角色被形容成“一半分析師,一半藝術家”。他們代表了商業或資料分析這個角色的一個進化。

for example – a data scientist will most likely explore and examine data from multiple disparate sources. The data scientist will sift through all incoming data with the goal of discovering a previously hidden insight, which in turn can provide a competitive advantage or address a pressing business problem. A data scientist does not simply collect and report on data, but also looks at it from many angles, determines what it means, then recommends ways to apply the data.

  • Anjul Bhambhri,IBM的大資料產品副總裁。

資料科學家是一個好奇的,不斷質疑現有假設,能盯著資料就能指出趨勢的人。這就好像在文藝復興時期,一個非常想為組織帶來挑戰並從挑戰中學習的人一樣。

  • Jonathan Goldman,LinkedIn資料科學家。

2006年的6月份進入商務社交網站LinkedIn,當時LinkedIn只有不到800萬用戶。高德曼在之後的研究中創造出新的模型,利用資料預測註冊使用者的人際網路。具體來講,他以使用者在LinkedIn的個人資料,來找到和這些資訊最匹配的三個人,並以推薦的形式顯示在使用者的使用頁面上——這也就是我們熟悉的”你可能認識的人(People you may know)”。這個小小的功能讓LinkedIn增加了數百萬的新的頁面點選量(資料探勘的應用典型之一推薦系統)。

  • John Rauser, 亞馬遜大資料科學家。

資料科學家是工程師和統計學家的結合體。從事這個職位要求極強的駕馭和管理海量資料的能力;同時也需要有像統計學家一樣萃取、分析資料價值的本事,二者缺一不可。

  • Steven Hillion, EMC Greenplum資料分析副總裁。

資料科學家是具有極強分析能力和對統計和數學有很深研究的資料工程師。他們能從商業資訊等其他複雜且海量的資料庫中洞察新趨勢。

  • Monica Rogati, LinkedIn資深資料科學家。

所有的科學家都是資料學家,因為他們整天都在和海量資料打交道。在我眼中,資料學家是一半黑客加一半分析師。他們通過資料建立看待事物的新維度。資料學家必須能夠用一隻眼睛發現新世界,用另一隻眼睛質疑自己的發現。

  • Daniel Tunkelang,LinkedIn首席資料科學家。

我是bitly 首席科學家Hilary Mason的忠實崇拜者。關於這個新概念的定義我也想引用她的說法:資料科學家是能夠利用各種資訊獲取方式、統計學原理和機器的學習能力對其掌握的資料進行收集、去噪、分析並解讀的角色。

  • Michael Rappa,北卡羅萊納州立大學教授。

儘管資料科學家這個名稱最近才開始在矽谷出現,但這個新職業的產生卻是基於人類上百年對資料分析的不斷積累和衍生。和資料科學家最接近的職業應該是統計學家,只不過統計學家是一個成熟的定義且服務領域基本侷限於政府和學界。資料科學家把統計學的精髓帶到了更多的行業和領域。

  • 林仕鼎,百度大資料首席架構師。

如果從廣義的角度講,從事資料處理、加工、分析等工作的資料科學家、資料架構師和資料工程師都可以籠統地稱為資料科學家;而從狹義的角度講,那些具有資料分析能力,精通各類演算法,直接處理資料的人員才可以稱為資料科學家。

最後引用Thomas H. Davenport(埃森哲戰略變革研究院主任) 和 D.J. Patil(美國科學促進會科學與技術政策研究員,為美國國防部服務)的話來總結資料科學家需要具備的能力:

  • 資料科學家傾向於用探索資料的方式來看待周圍的世界。(好奇心)
  • 把大量散亂的資料變成結構化的可供分析的資料,還要找出豐富的資料來源,整合其他可能不完整的資料來源,並清理成結果資料集。(問題分體整理能力)
  • 新的競爭環境中,挑戰不斷地變化,新資料不斷地流入,資料科學家需要幫助決策者穿梭於各種分析,從臨時資料分析到持續的資料互動分析。(快速學習能力)
  • 資料科學家會遇到技術瓶頸,但他們能夠找到新穎的解決方案。(問題轉化能力)
  • 當他們有所發現,便交流他們的發現,建議新的業務方向。(業務精通)
  • 他們很有創造力的展示視覺化的資訊,也讓找到的模式清晰而有說服力。(表現溝通能力)
  • 他們會把蘊含在資料中的規律建議給Boss,從而影響產品,流程和決策。(決策力)

三、資料科學家所需硬體技能

《資料之美 Beautiful Data》的作者Jeff Hammerbacher在書中提到,對於 Facebook 的資料科學家“我們發現傳統的頭銜如商業分析師、統計學家、工程師和研究科學家都不能確切地定義我們團隊的角色。該角色的工作是變化多樣的:

在任意給定的一天,團隊的一個成員可以用 Python 實現一個多階段的處理管道流、設計假設檢驗、用工具R在資料樣本上執行迴歸測試、在 Hadoop 上為資料密集型產品或服務設計和實現演算法,或者把我們分析的結果以清晰簡潔的方式展示給企業的其他成員。為了掌握完成這多方面任務需要的技術,我們創造了資料科學家這個角色。”

(1) 電腦科學

一般來說,資料科學家大多要求具備程式設計、電腦科學相關的專業背景。簡單來說,就是對處理大資料所必需的Hadoop、Mahout等大規模並行處理技術與機器學習相關的技能。

  • 零基礎學習 Hadoop 該如何下手?
  • 想從事大資料、海量資料處理相關的工作,如何自學打基礎?

(2) 數學、統計、資料探勘等

除了數學、統計方面的素養之外,還需要具備使用SPSS、SAS等主流統計分析軟體的技能。其中,面向統計分析的開源程式語言及其執行環境“R”最近備受矚目。R的強項不僅在於其包含了豐富的統計分析庫,而且具備將結果進行視覺化的高品質圖表生成功能,並可以通過簡單的命令來執行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴充套件機制,通過匯入擴充套件包就可以使用標準狀態下所不支援的函式和資料集。R語言雖然功能強大,但是學習曲線較為陡峭,個人建議從python入手,擁有豐富的statistical libraries,NumPy ,SciPy.org ,Python Data Analysis Library,matplotlib: python plotting。

  • 如何系統地學習資料探勘?
  • 做資料分析不得不看的書有哪些?
  • 怎麼學習用R語言進行資料探勘?

(3) 資料視覺化(Visualization)

資訊的質量很大程度上依賴於其表達方式。對數字羅列所組成的資料中所包含的意義進行分析,開發Web原型,使用外部API將圖表、地圖、Dashboard等其他服務統一起來,從而使分析結果視覺化,這是對於資料科學家來說十分重要的技能之一。

  • 有哪些值得推薦的資料視覺化工具?

(4) 跨界為王

麥肯錫認為未來需要更多的“translators”,能夠在IT技術,資料分析和商業決策之間架起一座橋樑的複合型人才是最被人需要的。”translators“可以驅動整個資料分析戰略的設計和執行,同時連線的IT ,資料分析和業務部門的團隊。如果缺少“translators“,即使擁有高階的資料分析策略和工具方法也是於事無補的。

The data strategists’combination of IT knowledge and experience making business decisions makes them well suited to define the data requirements for high-value business analytics. Data scientists combine deep analytics expertise with IT know-how to develop sophisticated models and algorithms. Analytic consultants combine practical business knowledge with analytics experience to zero in on high-impact opportunities for analytics.

天才的”translators“非常罕見。但是大家可以各敬其職(三個臭皮匠臭死諸葛亮),資料戰略家可以使用IT知識和經驗來制定商業決策,資料科學家可以結合對專業知識的深入理解使用IT技術開發複雜的模型和演算法,分析顧問可以結合實際的業務知識與分析經驗聚焦下一個行業爆點。

推薦關注:https://www.facebook.com/data

四、資料科學家的培養

位於伊利諾伊州芝加哥郊外埃文斯頓市的美國名牌私立大學——西北大學(Northwestern University),就是其中之一。西北大學決定從2012年9月起在其工程學院下成立一個主攻大資料分析課程的分析學研究生院,並開始了招生工作。西北大學對於成立該研究生院是這樣解釋的:“雖然只要具備一些Hadoop和Cassandra的基本知識就很容易找到工作,但擁有深入知識的人才卻是十分缺乏的。”

此外,該研究生院的課程計劃以“傳授和指導將業務引向成功的技能,培養能夠領導專案團隊的優秀分析師”為目標,授課內容在數學、統計學的基礎上,融合了尖端計算機工程學和資料分析。課程預計將涵蓋分析領域中主要的三種資料分析方法:預測分析、描述分析(商業智慧和資料探勘)和規範分析(優化和模擬),具體內容如下。

(1) 秋學期 * 資料探勘相關的統計方法(多元Logistic迴歸分析、非線性迴歸分析、判別分析等) * 定量方法(時間軸分析、概率模型、優化) * 決策分析(多目的決策分析、決策樹、影響圖、敏感性分析) * 樹立競爭優勢的分析(通過專案和成功案例學習基本的分析理念)

(2) 冬學期 * 資料庫入門(資料模型、資料庫設計) * 預測分析(時間軸分析、主成分分析、非引數迴歸、統計流程控制) * 資料管理(ETL(Extract、Transform、Load)、資料治理、管理責任、元資料) * 優化與啟發(整數計劃法、非線性計劃法、區域性探索法、超啟發(模擬退火、遺傳演算法))

(3) 春學期 * 大資料分析(非結構化資料概念的學習、MapReduce技術、大資料分析方法) * 資料探勘(聚類(k-means法、分割法)、關聯性規則、因子分析、存活時間分析) * 其他,以下任選兩門(社交網路、文字分析、Web分析、財務分析、服務業中的分析、能源、健康醫療、供應鏈管理、綜合營銷溝通中的概率模型)

(4) 秋學期 * 風險分析與運營分析的計算機模擬 * 軟體層面的分析學(組織層面的分析課題、IT與業務使用者、變革管理、資料課題、結果的展現與傳達方法)

(EMC的線上課程:Data Science and Big Data Analytics Training,收費T_T,大家可以瞭解下學習路徑)

(5)分享一些免費的課程

以下課程免費,講師都是領域的專家,需要提前報名,請注意開班的時間。

  • Coursera.org:統計學。
  • Coursera.org:機器學習。
  • Coursera.org:資料分析的計算方法。
  • Coursera.org:大資料。
  • Coursera.org:資料科學導論。
  • Coursera.org:資料分析。

名校課程,需要一定的英語基礎和計算機基礎:

  • Statistical Thinking and Data Analysis:麻省理工學院的統計思維與資料分析課。概率抽樣,迴歸,常見分佈等。
  • Data Mining | Sloan School of Management:麻省理工學院的資料探勘課程,資料探勘的知識以及機器學習演算法。
  • Rice University Data Visualization:萊斯大學的資料視覺化,從統計學的角度分析資訊視覺化。
  • Harvard University Introduction to Computing, Modeling, and Visualization: 哈佛大學,如何在數學計算與資料互動視覺化之間架起橋樑。
  • UC Berkeley Visualization:加州大學伯克利分校資料視覺化。
  • Data Literacy Course — IAP:兩個MIT的資料研究生,如何分析處理視覺化資料。
  • Columbia University Applied Data Science:哥倫比亞大學,資料分析方法。需要一定的資料基礎。
  • SML: Systems:加州大學伯克利分校,可擴充套件的機器學習方法。從硬體系統,並行化正規化到MapReduce+Hadoop+BigTable,非常全面系統。

五、資料科學家的前景

(EMC – Leading Cloud Computing, Big Data, and Trusted IT Solutions,關於資料科學家的研究)

Like the physical universe, the digital universe is large – by 2020 containing nearly as many digital bits as there are stars in the universe. It is doubling in size every two years, and by 2020 the digital universe – the data we create and copy annually – will reach 44 zettabytes, or 44 trillion gigabytes.

EMC預測,按照目前的情況數字宇宙以每兩年一番的速度倍增,在2020年將到達44ZB(1ZB=1.1805916207174113e+21B)。EMC做出了5點比較大膽的預測。

  • In 2013, while about 40% of the information in the digital universe required some type of data protection, less than 20% of the digital universe actually had these protections.
  • Data from embedded systems, the signals from which are a major component of the Internet of Things, will grow from 2% of the digital universe in 2013 to 10% in 2020.
  • In 2013, less than 20% of the data in the digital universe is “touched” by the cloud, either stored, perhaps temporarily, or processed in some way. By 2020, that percentage will double to 40%.
  • Most of the digital universe is transient – unsaved Netflix or Hulu movie streams, or Xbox One gamer interactions, temporary routing information in networks, sensor signals discarded when no alarms go off, etc. – and it is getting more so. This is a good thing, because the world’s amount of available storage capacity (i.e., unused bytes) across all media types is growing slower than the digital universe. In 2013, the available storage capacity could hold just 33% of the digital universe. By 2020, it will be able to store less than 15%.
  • In 2014, the digital universe will equal 1.7 megabytes a minute for every person on Earth.

Between 2013 and 2020 the division of the digital universe between mature and emerging markets (e.g., China) will switch – from 60% accounted for by mature markets to 60% of the data in the digital universe coming from emerging markets.

EMC預測在2017年左右新興的市場將超越成熟市場,東亞國家是最具潛力的引爆點。(大家是不是有點小激動,前景一片光明)

六、結束語

推薦網站:

Data Science Central (資料科學中心,大牛雲集,資源豐富,討論者熱情,各種課程)

祝每一個DMer都挖掘到金礦和快樂:)

參考文獻:

[1].Data Scientists: The Definition of Sexy

[2].《大資料的衝擊》. 城田真琴. 野村綜合研究所創新開發部高階研究員、IT分析師,日本政府“智慧雲端計算研究會”智囊團成員

[3].麥肯錫. Big data: The next frontier for innovation, competition, and productivity

[4].EMC. Executive Summary: Data Growth, Business Opportunities, and the IT Imperatives

[5].EMC Greenplum’s Steven Hillion on What Is a Data Scientist?

[6].LinkedIn’s Monica Rogati On “What Is A Data Scientist?”

[7].IBM – What is a Data Scientist?

[8].Data Science and Prediction

[9].The key word in “Data Science” is not Data, it is Science

[10].Data Science: How do I become a data scientist?

[11].A Practical Intro to Data Science

[12].解碼資料科學家