1. 程式人生 > >Google首席決策師告訴你資料科學究竟是什麼?

Google首席決策師告訴你資料科學究竟是什麼?

作者: Cassie Kozyrkov
編譯: Mika
本文為 CDA 資料分析師原創作品,轉載需授權

> 關於作者:
Cassie Kozyrkov,Google首席決策師。致力於統計學, 機器學習 /人工智慧、資料、決策科學。


資料科學是讓資料變得有用的學科。在本文中我將對資料科學中的三個概念進行解讀。

* 統計
* 機器學習
* 資料探勘/分析

1. 定義資料科學

看到資料科學這個術語的早期歷史,你會發現當時有兩個概念是密不可分的。

· 大資料意味著要更多地利用計算機
· 統計學很難把紙上的演算法通過計算機實現

因此,資料科學誕生了。最開始資料科學家的的定義是“能夠程式設計的統計學家”。如今看來,這個說法並不準確,但首先讓我們看到資料科學本身。

2003年的資料科學期刊中曾提出:"'資料科學'意味著任何與資料有關的內容。"我很同意這個觀點,現在一切都離不開資料。

之後,我們看到了很多不同的觀點,比如Conway的維恩圖(下圖),以及Mason和Wiggins的經典觀點。


Drew Conway對資料科學的定義

我個人更喜歡維基百科上的定義:

資料科學一種"結合了統計、資料分析、機器學習及其相關方法的概念",以便用資料"理解和分析實際現象"。

這有些複雜了,讓我們精簡一下,即:

"資料科學是讓資料有用的學科。"

你現在可能會想,但這也太精簡了,“有用”這個詞怎麼能囊括所有這些術語呢?

那麼讓我們先看到下面的圖。

統計學家和機器學習工程師之間的區別,並不是前者使用R語言而後者使用Python。由於許多原因,用SQL、R、Python進行分類是不明智的,如今你甚至可以用SQL進行機器學習。

新手還喜歡通過演算法進行區分,許多大學課程也是這麼安排的,這也是不明智的。最好不要用直方圖、t檢驗以及神經網路進行分類。坦率地說,如果你很聰明,其實你可以用相同的演算法解決任何資料科學問題。

我建議可以這樣進行區分:

這指的是什麼呢?當然是決定。你可以根據所需的事實,通過描述性分析得出決策。

我們的行動和決定會影響周圍的世界。我們之前談到要讓資料變得有用,而這與現實世界的行動是緊密相關的。

以下是決策導向圖,完成這三點能夠讓資料變得有用。

2. 資料探勘

如果你不知道想做出什麼樣的決定,那麼最好的做法就是去尋找靈感。這就稱為資料探勘、資料分析、描述性分析、探索性資料分析或(EDA)或知識發現(KD)。

分析的黃金法則:只對你所看到的做出結論。

你可以將資料集想象為在暗室中發現的一堆底片。資料探勘就是讓裝置儘快曝光這些照片,看是否能從中得出啟發。資料探勘的黃金法則是:只能對你能看到的做出結論,不要對你看不到的內容做出判斷,因為你需要統計資料等更多的專業知識。

資料探勘的專業知識取決於檢查資料的速度。一開始暗房會令人生畏,但其實也沒什麼大不了的,只是學會使用裝置就行了。當你開始樂在其中時,你就可以稱為資料分析師了;當你能夠飛速地曝光照片時,你就可以稱為分析師專家了。


3. 統計推斷

靈感很容易獲得,但嚴謹來之不易。如果你想重複利用資料,那麼則需要專業的培訓。作為本科和碩士都學統計學專業的人,我認為統計推斷(簡稱統計)是三個領域中最難且最具哲學內涵的。想學好統計需要花費大量時間。

如果你打算做出高質量、風險可控的重要決策,那麼你需要在分析團隊中加入統計技能。在不確定的情況下,統計學是能改變你想法的學科。


4. 機器學習

機器學習實質上是使用例子而不是指令來實現操作。關於機器學習我曾寫過一些文章,如關於機器學習與AI 的區別;如何入門機器學習等,如果感興趣的話可以看看。

* The simplest explanation of machine learning you’ll ever read
https://hackernoon.com/the-simplest-explanation-of-machine-learning-youll-ever-read-bebc0700047c

* Are you using the term ‘AI’ incorrectly?
https://medium.com/@kozyrkov/are-you-using-the-term-ai-incorrectly-911ac23ab4f5

* Why businesses fail at machine learning
https://hackernoon.com/why-businesses-fail-at-machine-learning-fbff41c4d5db

5. 資料工程

那麼資料工程是什麼呢?資料工程指的是為資料科學團隊提供資料的工作。資料工程本身就是一個複雜的領域,它更接近軟體工程,而不是統計學。

資料工程和資料科學之間的差異是前後的區別。獲取資料前的大部分技術工作都可以簡單地稱為“資料工程”,而得到資料後我們所做的一切都是“資料科學”。


6. 決策智慧

決策智慧是關於決策的,包括對根據大量資料進行決策,因此這也使其成為一個工程學科。它利用社會和管理科學的理念,增強資料科學的應用。

決策智慧是社會和管理科學的組成部分。換而言之,它是資料科學的超集,而不涉及為通用用途建立基本方法之類的研究工作。