專訪唐亙:計算機編程和數學建模缺一不可
點擊圖片購書
參與文末話題討論,每日贈送異步圖書
——異步小編
唐亙,數據科學家,專註於機器學習和大數據。曾獲得復旦大學的數學和計算機雙學士學位;巴黎綜合理工的金融碩士學位;法國國立統計與經濟管理學校的數據科學碩士學位。熱愛並積極參與Apache Spark和Scikit-Learn等開源項目。作為講師和技術顧問,為多家機構(包括惠普、華為、復旦大學等)提供百余場技術培訓。此前的工作和研究集中於經濟和量化金融,曾參與經濟合作與發展組織(OECD)的研究項目並發表論文,並擔任英國最大在線出版社Packt的技術審稿人。 《精通數據科學:從線性回歸到深度學習》作者。
圖靈獎獲得者Jim Gray將數據科學稱作科學研究的“第四範式”(the fourth paradigm)。數據科學不僅會影響到科學的各個方面,也會在各領域的應用中發揮重要的作用。唐亙老師以其堅實的數據科學基礎和多年的大數據分析經驗,用淺顯易懂的方式撰寫了《深入淺出數據科學:從線性回歸到深度學習》。
隨著雲計算和人工智能的發展,數據科學這門新的綜合學科被越來越多的人所熟知,業界也普遍看好其在未來的發展前景。體現在就業市場上,與這個行業相關的數據科學家和數據工程師成為了“21世紀最吸引人的職業”。唐老師說:“數據科學涉及計算機編程和數學建模這兩個方面。它們之間的交集並不多,所強調的技能也有很大區別。這體現在實際生產中就是懂模型的人不懂編程,懂編程的人不懂模型,兩者兼備的人才非常稀缺。”
今天我們有幸采訪了唐老師,以下是專訪部分問題。
——異步小編
異步社區:可以介紹一下自己嗎?目前正在做哪些事情?
唐亙:大家好,我叫唐亙,是《精通數據科學:從線性回歸到深度學習》一書的作者,現就職於一家叫finogeeks的創業公司。在這家創業公司裏面,我主要負責兩個項目,
異步社區:是什麽初衷開始創作《精通數據科學:從線性回歸到深度學習》一書?這本書寫給哪些人看?
唐亙:現在回想起來,有3個主要的原因促成我開始寫這本書吧:目前大熱的數據科學(data science)是一門新興學科,它涉及計算機、計量經濟學、機器學習等多方面的內容。但比較遺憾的是,將這3門學科融匯在一起的圖書比較少見(在我有限的認知裏),因此想通過自己的寫作將這點遺憾彌補掉。
網上有關數據科學的資料很多,但這些資料都比較碎片化,不成體系。所以我希望能成體系地寫一本書勾勒出有關數據科學的全景圖。
從學習經歷上來講,我是一個比較喜歡自學和分享的人,因此很想將自己的學習心得和對學科的體會寫出來,分享給大家。
這本書,我覺得比較適合兩類人群吧,一是初學者,可以幫助他們了解什麽是數據科學;二是對數據建模有一定基礎的技術人員,可以幫助他們更好地理解模型(特別是在模型穩定性和可信度方面)。
異步社區:除了寫作,您有開設視頻課程的計劃嗎?
唐亙:長期有這樣的打算,之前也嘗試過比較短時間的公開課。但是,系統的視頻課程需要比較長的準備時間,所以近期沒有具體的計劃。
異步社區:有一種說法,數據分析的工作終將被機器淘汰?您認同嗎?
不認同。
唐亙:我覺得數據分析工作包含3個部分:業務知識、分析模型搭建、模型計算。其中前兩個部分都是機器無法替代的,因為這些需要人的經驗積累以及人對模型假設的理解。而最後一個部分是機器可以勝任的,事實上,目前各種開源算法庫比如scikit-learn、Tensorflow,它們做的事情就是讓模型計算變得愈發自動化。
異步社區:對於剛入行的小白,您有什麽建議?
唐亙:結合個人經歷,我的建議是:多動手寫代碼,提高自己工程實現的能力。多學一點高等數學的知識,以便加深對模型的理解。多與業務人員接觸,了解業務場景,加深對數據的理解。
異步社區:數據科學家必備的職業素養您認為最重要的3點是什麽?為什麽?
唐亙:在我看來,數學科學家必備的3點職業素養是:模型理解、工程實現以及溝通技巧。通俗點講就是既懂數學,又懂代碼,還會講故事。
模型理解強調的是對模型數學細節和模型假設的深刻理解。只能真正地理解了模型,才能根據實際情況,選擇適當的模型分析數據。
工程實現強調的是數據科學家的代碼能力。在這個計算機無處不在的時代,沒有良好的代碼能力,再好的模型設計也只能是空中樓閣,無法落地。溝通技巧強調的是如何將模型結果(或者其他一些技術細節)清楚明白地解釋給業務人員。這往往是一個數據分析項目成功的關鍵因素。
異步社區:您曾說,就像“一千個人眼裏有一千個哈姆雷特”一樣,對於什麽是數據科學也有很多種不同的解讀,並由此衍生出很多相關概念,比如數據驅動(data driven)、大數據(big data)、分布式計算(distributed computing)等。這些概念的應用場景有什麽不同?為什麽這麽說?
唐亙:數據科學涉及的面特別廣,也影響了人類社會的方方面面。不同的人對數據科學的關註點是不同的,因此衍生出很多側重點不同的概念。比如數據驅動(data driven),它的側重點是企業文化或者企業架構,指的是公司的決策應該從數據分析結果出發,而不應依賴於領導的個人經驗;分布式計算(distributed computing)是一個技術概念,指的是如何利用計算機集群解決大數據量下的計算問題;大數據(big data)則是一個更加泛化的概念,更側重於描述數據(數量越來越多,精細程度越來越高的數據)對人們生活的影響。
異步社區:數據科學所面臨的工程挑戰是什麽?
唐亙:我認為在工程實現上,面臨的挑戰主要有3個:
特征提取。一個數據分析項目的成功在很大程度上依賴於分析前期的特征提取,而且在一個典型的數據分析項目中,這部分花費的時間遠遠大於選擇和編寫模型算法的時間。為了能較好地完成這部分工作,需要優秀的代碼能力。
矩陣運算。在模型訓練時(也就是估算模型參數時),往往涉及矩陣運算。使用傳統的CPU架構來進行這樣的運算往往速度太慢,因此需要將這部分計算移植到GPU或者特制的計算芯片上,比如TPU。
分布式計算。在實際的應用中,往往需要面對海量的數據,這些數據是一臺計算機無法處理的,因此要將原本在一臺機器上運行的模型算法改寫成能在計算機集群上分布式運行的算法。
異步社區:您是如何平衡寫作、工作和生活時間的?有什麽心得可以分享嗎?
唐亙:寫作是一件極其耗費時間的工作,因此只能盡可能地擠壓自己的休息時間來完成。要說有什麽心得的話,就是在寫作的時候(其實工作的時候也一樣),最好斷網斷手機,在較長的時間內專心做一件事,不要寫不到幾個字就刷一次朋友圈。
異步社區:2018年的目標是什麽?可以跟異步社區的讀者分享下嗎?
唐亙:2018年的目標是鍛煉身體,成功減肥,還有就是多讀幾本歷史書。
《精通數據科學:從線性回歸到深度學習》
《精通數據科學:從線性回歸到深度學習》
唐亙 著
京東購書 當當購書
數據科學入門到實戰,介紹數據科學常用的工具——Python、數學基礎及模型,討論數據科學的前沿領域——大數據和人工智能,包括機器學習領域經典的模型、分布式機器學習、神經網絡和深度學習等。
在數據學科的角度,融合了數學、計算機科學、計量經濟學的精髓
為讀者闡釋了數據科學所要解決的核心問題—數據模型、算法模型的理論內涵和適用範圍
以常用的IT工具—Python為基礎,教會讀者如何建模以及通過算法實現數據模型,具有很強的實操性。
本書還為讀者詳解了分布式機器學習、神經網絡、深度學習等大數據和人工智能的前沿技術。
今日互動
你對本書的看法?為什麽?截止時間6月8日17時,留言+轉發本活動到朋友圈,小編將抽獎選出3名讀者贈送紙書1本和2張e讀版100元異步社區代金券,(留言點贊最多的自動獲得一張)。
異步圖書後臺回復“5月新書”進入新書交流群,獲得第一手新書信息
推薦閱讀
2018年5月新書書單(文末福利)
2018年4月新書書單
異步圖書最全Python書單
一份程序員必備的算法書單
第一本Python神經網絡編程圖書
每天與你分享IT好文。
在“異步圖書”後臺回復“關註”,即可免費獲得2000門在線視頻課程
點擊閱讀原文,購買《精通數據科學 從線性回歸到深度學習》
閱讀原文
專訪唐亙:計算機編程和數學建模缺一不可