如何成為資料科學家
阿新 • • 發佈:2019-09-01
成為資料科學家!
事實上,你可以成為一名真正的資料科學家,且不需要掌握這些技能。NoSQL和MapReduce不是新概念————在這些關鍵詞被建立之前,就有很多人接觸到它們。但要成為一名資料科學家,你需要以下能力。
- 敏銳的商業頭腦。
- 真正的大資料專業知識(例如,可以在幾個小時內快速地處理一個5000萬行的資料集)。
- 認知資料的能力。
- 對模型具有猜凝精神。
- 瞭解大資料"詛咒"。
- 有能力溝通並理解管理人員正在試圖解決哪些問題。
- 能正確評估付你工資所能帶來的回報(ROI)或效益提升(lift)。
- 能夠快速地識別一個簡單的、健壯的、可擴充套件性的解決方案。
- 能夠說服推動管理人員,即使不情願,也要為了公司、使用者和股東的利益,轉到正確的方向上。
- 真正熱愛資料分析。
- 成功案例的實際應用經驗。
- 資料架構知識。
- 資料收集和清理技能。
- 計算複雜度的基礎知識一如何開發健壯的、商效的、可擴充套件的、可移植的架構。
- 良好的演算法知識。
資料科學家在商業分析、統計學和電腦科學等領域也是通才,比如會掌握這些專業知識:健壯性、實驗設計、演算法複雜度、儀表盤和資料視覺化。一些資料科家也是資料策略師————他們可以開發資料收集策略,並使用資料來發現可操作的、能對商業產生影響的見解。這就要求資料科學傢俱有創造性,能根據業務要求,分析、提出解決方案。
要理解資料科學,所需的基本數學知識包括:
- 代數,如果可能的話,包括基本矩陣理論。
- 微積分入門課程。要掌握的理論不多,只需要理解計算的複雜度和o標記法即可。瞭解特殊函式,包括對數、指數、暴蹈數。微分方程、積分和複數不是必要的。
- 統計與概覽的入門課程,要了解隨機變數、概率、均值、方差、百分位數、實驗設計、交叉驗證、擬合度和穩健統計的概念。
從技術的角度,要掌握的重要技能和知識有R、Python、Excel、SQL、圖形(視覺化)、FTP基本的UNIX命令(sort、grep、head、tail、管道和重定向操作符、cat、cron定時等),以及對如何設計和訪問資料庫有基本瞭解。瞭解分散式系統如何工作和在哪裡能發現瓶頸(是在硬碟和記憶體之間的資料傳輸,還是在網際網路上),這也很重要。最後,要了解網路爬蟲基本知識,有助於獲取網際網路上能找到的非結構化資料