剛入資料科學相關領域,您也許需要有七個這樣的思維
假設你剛剛被一家小型軟體公司聘為資料科學家。你感到欣喜若狂!你的辛勤工作和堅持不懈終於得到了回報。是時候將你的統計資料和機器學習知識付諸實踐了。那麼恭喜你終於加入了資料革命。
第1天到來,每個人都很高興見到這位“資料科學家”。該公司以前從未聘請過資料科學家,因此有些期望值並不切實際。更可怕的是你的主管可能不是資料科學家,你可能向她在第一天為你提供幫助。“請給我一些資料!”你可能認為資料很容易獲得檢索,或者至少它會以乾淨整潔的格式儲存。很明顯,僱用你的公司有一個巨集偉的計劃,在實現這個計劃之前不可能什麼都準備完畢,這也是你的價值所在!
對於大多數初級資料科學家加入小型公司(甚至是世界科技巨頭之外的組織)。作為曾經又過這樣經歷的人,我想概述一些實用的想法,以幫助初級資料科學家在一家小型軟體公司開始。這些步驟來自我個人的旅程和我之前的其他旅程。
1.獲取公司領域專業知識
當我第一次在Nulogy擔任資料科學家時,我急於繞過繁瑣的入職流程,因為我只想玩資料。我花了幾個月的時間才意識到,如果沒有正確理解我所運營的域名,就很難提出並證明新專案的合理性,以便為業務帶來哪些好處。
作為資料科學家,你需要了解你目前所屬行業的細節。你還可以就如何進行探索性資料分析,自我批判你的發現並調查異常情況。擁有強大的專業知識使你能夠執行更好的特徵選擇和工程設計。實際上,構建模型來優化系統而不瞭解當前系統如何工作的潛在細微差別是失敗的一個因素。
2.能力提升
僅僅理解你的公司為資料科學家提供職位描述並不意味著他們對該職位的內容有深刻的理解。我的意思是讓我們面對現實:有時我們也不會。我曾經讀過一位資料科學主管的文章,他在開始擔任新角色後,花了30%或更多的時間在整個組織內建立對資料科學和機器學習的共同理解(這是原始故事)。對於資料科學家在機器學習領域開展工作而言,這是一個很好的開始。你可以選擇使用R或Python教授課程,或者提供課程讓你及周圍的人圍繞統計分析和機器學習建立直覺。這對於幫助同事識別機器學習和資料科學有很大等幫助同時這也幫助你周圍的人瞭解你的具體操作,這樣在工作協同等時候更得心應手。
3.資料理解
這可能是最重要的,也是最容易解釋的。一位新的資料科學家應該是這樣理解的:
· 如何產生資料;
· 如何收集,儲存和處理它;
· 資料庫的基礎架構;
瞭解資料的產生和收集方式至關重要,因為它使你能夠確定你是否可以按原樣信任資料,或者是否需要進一步預處理才能使用或呈現資料。瞭解資料庫的基礎架構將加快查詢過程,並幫助你最大限度地減少在提取資料時所犯的錯誤。確定需要收集哪些資料以實現公司的資料科學戰略(你應該在整個中發揮重要作用)也很重要。
4.構建知識庫(民主化資料)
資料科學家的角色不應侷限於A / B測試、建立模型和發現相關性。相反,資料科學家應該在組織中建立資料驅動的文化中發揮關鍵作用。一個很好的起點是使你對所有員工所做工作的訪問民主化。Airbnb有一篇很棒的文章,關於建立它所謂的“知識回購”。知識回購的目的是促進整個組織的知識共享,最簡單的方法是使用Jupyter筆記本和R降價檔案記錄所有資料科學工作,並使組織中的任何人都可以輕鬆訪問它們。你可以通過共享使用Shiny建立的簡單應用程式將其提升到新的水平,使你的同事能夠操縱輸入並觀察輸出(數字或繪圖)如何變化。
5.專注於小勝利
當作為小公司的第一位資料科學家時,很可能不會立馬有機器學習策略。通過識別機器學習機會並立即建立複雜模型來嘗試開始工作可能會令人沮喪。這是因為你仍然不熟悉業務領域,你還沒有沉浸在公司的資料基礎架構中,甚至可能沒有資料管道設定!
該怎麼辦?專注於小勝利。
組織中的每個級別都存在資料疏忽問題。你可以解決重要領域的實體,通過資料驅動的決策支援銷售和營銷,幫助產品團隊設定,跟蹤和評估KPI,同時在公司的資料科學路線圖中並行工作。
這裡的關鍵是讓立即證明自己的價值。
6.重複After Me:ROI
我們中的許多資料科學家都陷入瞭解決數學複雜問題和構建機器學習演算法的誘惑力。也就是說,現實情況是,我們認為“有趣”問題的很大一部分不會帶來任何回報給我們的僱主。這些問題充其量只能充當冷靜的對話啟動者。
對於資料科學家而言,關注能夠為其組織帶來投資回報(ROI)的問題極為重要。問問自己,在這個專案上話費了多少美元?一個好的建議是讓利益相關者參與構思過程,例如產品經理,客戶經理或更好的實際客戶。
同樣,知道何時停止也很重要。例如,投資回報率是否會將模型的準確度提高5%,證明所需的努力和資源是合理的,還是模型在當前狀態下足夠好?讓ROI和道德規範成為資料科學決策的兩個指導原則。
7.資料科學路線圖
在資料科學中,重要的是要提前考慮。你下一季度的資料科學遊戲是什麼?到年底怎麼樣?明年呢?從我卑微的經歷來看,這項任務很難單獨完成;你需要產品管理和高階管理人員的幫助,以瞭解資料科學最適合的位置以及最大化ROI的位置。然而,構建和傳播資料科學路線圖對於傳達資料科學在組織中的作用和重要性至關重要。
將所有這些結合在一起
我沒有資料可以證明這一點,但資料科學家在工作中不能長時間存在的理論已有詳細記載。潛在的主題往往是資料科學家沒有受到足夠的挑戰,因此他們總是在尋找“更性感”的事情。儘管如此,大多數中小型軟體公司的原始現實是,資料科學不是一個具有深思熟慮戰略和預定目標的預定義角色。這是一個具有巨大未開發潛力的新發現領域,其中大部分需要在利潤、資料分析、統計和機器學習以及有針對性的資料通訊之間確定和建立正確的橋樑。總而言之,資料科學是一個過程,有一個開始,有時不那麼明確的結束。
文章原標題《seven-practical-ideas-beginner-data-scientists》
作者:Wafic El-Assi 譯者:烏拉烏拉,審校:。