80後阿里P10,“關老闆”如何帶著MaxCompute一路升級?
我是個幸運的人。雖然幸運不能被複制,但是眼光和努力可以。
關濤/關老闆,80後的阿里P10,阿里巴巴通用計算平臺負責人,阿里巴巴計算平臺研究員。12年職場人生,微軟和阿里的選擇。
關濤的花名取自諧音:觀濤。有種看海觀濤的閒適,但在MaxCompute技術團隊裡,因為團隊既要做核心技術也要“落地拿結果”承擔阿里雲的客戶規模和營收,像一個小的創業公司,因此大家更喜歡叫他”關老闆”,一下子就世俗親近了起來。
關老闆是個北方人,大高個也帶著些書生氣。因為工作的關係,帶領著一支跨國團隊,兩岸四地奔波(太平洋兩岸,北京、杭州、西雅圖、加州),說話間偶爾喜歡中英文match一下。
“我是一個興趣驅動型的人,職業生涯總的來說,還算挺幸運的,做自己感興趣的事情,走上IT這一行……”
如果有認識關濤的人,應該會忍不住說上一句:這傢伙,運勢太好了吧。
一路保送,沒考過什麼試,大學選擇計算機的原因也很任性,喜歡玩遊戲。研究生畢業後就進入了微軟,是微軟最年輕的技術管理者之一,後來去了阿里雲,不到3年時間,已經是P10,阿里巴巴通用計算平臺MaxCompute團隊負責人。
“特別久以前,大概初中的時候有了自己的第一臺電腦,大名鼎鼎的486,帶一個數學協處理器,主頻266MHz,記憶體有4MB。”
喜歡玩遊戲的都知道,往往會碰見有些關卡比較難,闖不過去的情況。當時的關濤就想著:怎麼能夠繞開系統這些設定?於是查了很多雜誌也看了很多書,試圖去改遊戲存檔,那個階段他第一次知道什麼是十六進位制,也是最初接觸程式設計。
最後自己折騰著,操縱遊戲角色大殺四方,簡直無敵。讓程式按照自己的意願執行的感覺,“嘿,還好玩的。”
於是,開始覺得這個專業(計算機)不錯。到了高中畢業的時候,因為數學競賽被保送到南開大學,當時的一個選擇是可以進數學系,南開的王牌專業,但最後,關濤還是因為興趣選擇了計算機。
人生的分叉口有很多,有時候做了第1個選擇,後面的路都會開始相通,看似順勢而為,其實都是選擇的結果。
*從200公里的北京到8000多公里的西雅圖
工作需要定期make a little change*
2006年,關濤畢業了。這意味他要開始自己的職業生涯了,他有些躍躍欲試。
研究生的3年,因為導師有額外要求:不能去實習,這讓關濤對於招聘市場並不那麼瞭解,對於微軟同樣是“沒有太多的認知”。但北京有個MSRA,微軟亞洲研究院,據說是當時最好的R&DCenter。
抱著試試看的心態,經歷了一整天的面試後,關濤順利地拿到了offer。 他回憶:“好像也不是那麼難”。
在離家鄉河北承德200公里遠的北京,關濤一呆就是6年,是微軟Bing搜尋北京團隊最初的幾十個人之一。從偏儲存層到計算層,在專案裡不斷地去充實自己。他是個興趣驅動的人,但在工作中願意變成完美主義者。
在微軟的第一個專案,是做一個分散式KV+ObjectStore系統,用於支援Bing搜尋的圖片和視訊儲存。2006年,還沒有Hbase這樣的開源系統,當時6個人的小團隊完全手寫一套分散式KV,最終部署在3000臺機器並支援正常線上流量,在實戰中接觸到了分散式系統中的各種挑戰,也學到了非常多的東西。“這個專案,是個好的機會與開始”。
第二個專案是做搜尋後臺的IndexGen Pipeline:一個定製化的儲存與計算系統,用於支援通用搜索100B級別的超大規模資料儲存和處理,後來這個搜尋後臺也成為了微軟Bing搜尋後臺的第二代架構,並服務至今。
再後來就是牽頭來做大資料上互動式查詢(JetScopeOn Cosmos),最後基本微軟一半以上的團隊都在用這個系統。
在關濤看來,不管是生活還是職業發展,定期去make a little change是很好的選擇,保持新鮮感的同時,能看到學到更多的東西。從被別人帶著寫程式碼、到自己獨立負責一些板塊,再到自己帶專案小組、帶大一點的技術團隊,這些都需要有一個自我時間界定,把握自己的發展節奏。
6年微軟後,他也準備make a bigger change:申請去了美國西雅圖的微軟總部。
8000多公里以外的城市,冬天不太冷,夏天不太熱,還有他最愛的單板滑雪,以至於一直堅持在每年的最後一天自駕去不同的滑雪地。
在美國期間,關濤繼續深入做互動式查詢、StructuredData優化推動等,也積累了很多跨國技術團隊管理的經驗。 “美國有近40年的歷史,團隊成員比北京的團隊更資深一些,在美國能夠看到不一樣的人,看到不一樣的專案。”
而在微軟的10年時間裡,關濤也關注到了國內以BAT為代表的本土企業,他們發展的很好,而且有更高的加速度……
*西雅圖分部第22號員工
10年後的迴歸,面對更多的挑戰*
“當時海外辦公室剛建起來,我是阿里西雅圖分部的第22號員工。”
“在微軟10年,國內是什麼情況?”好奇心不斷膨脹,於是在一次偶然的機會,關濤跳去了阿里,成為了阿里巴巴通用計算平臺MaxCompute團隊裡的一員。這是2016年1月。
MaxCompute的前身是ODPS,阿里內部統一的大資料平臺,目前99%的資料儲存以及95%的計算能力都在這個平臺上產生,如果把阿里巴巴集團的資料體系比作航母戰鬥群,那麼MaxCompute就是中間的航空母艦。
面對這樣一個已經發展了近6年的相對成熟、體量極為龐大的平臺,挑戰非常多。而2016年1月入職阿里,2016年年會上就接過了MaxCompute的掌舵者位置,從0到1已經做完了,如何做到從1到10?留給關濤的時間並不多。
他認為,大型系統逐步發展,是一個不斷自我進化的過程,大資料系統也不例外。
微軟的經歷給了他一些幫助:包括同樣都是大資料引擎(規模上有較大差異),之前的技術和工程經驗都能複用。而豐富的跨國技術團隊管理經驗也讓關濤更加適應阿里的工作。
*從MaxCompute1.0到MaxCompute2.0
“我們是在飛行的飛機上換引擎”*
關濤回憶:“當時進來的時候,MaxCompute1.0 其實是在一個技術的成熟期上,承接了阿里巴巴內部和阿里雲的核心業務,而引擎升級有技術風險和問題(我們稱為Regression,包括功能和效能的)。為了保證對上層透明,我們先做了一個框架升級,支援把引擎的不同版本同時部署在線上,一點一點地把流量切過來,同時觀察效果。”之後再進行引擎層面的大手術。
有點像是“在飛行的飛機上換引擎”。
如今的MaxCompute2.0相較於1.0版本,規模達到近10萬臺,效能提升超過1倍以上,每年為阿里巴巴節省預算超過20億,同時也讓阿里的大資料引擎可以在未來3-5年架構上有個相對好的佈局。
技術團隊如何管理
關濤的看法是:技術管理者歸根結底還是一個管理者。
1、首先考慮的不是自己要做什麼事情而是幫助團隊做什麼事情,更多的有一種“利他”的責任感。
2、技術前瞻性,技術團隊管理者是要帶著團隊有目標地、正確地往前走,把握未來方向非常重要。
3、招聘層面,思考如何招到合適的人,如何進行人才佈局。現在是人才在哪辦公地點就在哪的階段。
從大資料角度看阿里雙十一
要支援好雙十一,先從兩個統一說起(資料統一和資源統一)。
- 資料具有1+1大於2的特性,不同的資料融合計算能產生更大的價值。而關鍵就在於如何把資料都打通。
幾年前阿里巴巴建設中臺,把內部所有的資料放在一起(物理上分佈在多地的近10萬臺伺服器上,但邏輯上統一,資料的分佈和排程對使用者透明),讓豐富的資料幫助產品、業務前進。
- 資源的統一化:把所有機器放在一個大的資源池裡(內部稱為混布專案),資源排程系統打通,對於機器的效率優化和整個系統的容災都有非常大的幫助。
做大資料的都瞭解,資料可以3年翻5倍,機器卻不行,否則成本太高,不現實。而利用已有的伺服器進行混合部署,“這也是近一年,我們重點投資的一個專案,也就是把不同BU、不同種類的機器部署在同一個資源池中。”
有了這兩個統一架構的前提,雙十一在洪峰來臨的時候,可以選擇把不那麼重要的工作先停掉(在百萬級別的作業中基於優先順序和依賴做排程),讓這些機器都用來支撐洪峰。洪峰過後,又把機器主力轉移到計算上,把需要的計算儘快地輸出來。
今年雙十一,大資料叢集在流量洪峰最高的幾個小時,通過彈性支援了超過1/4的交易業務流量。
不增加棋子,僅依靠挪動棋盤上的子,就完成佈局守住將軍。當然,在此之前,團隊把MaxCompute已經從1.0版本切到了2.0版本,效能的提升也是支援雙十一資料量的關鍵。
在硬體只增加不到三分之一的基礎上,處理資料相較去年翻了一番,達到單日處理600PB的規模。可以說,MaxCompute在這一戰役中發揮得不錯,甚至比去年更為優秀。
**未來:雲化、新硬體、非結構化計算、非關係型計算、AI是趨勢
DBA或將被淘汰?**
去年的時候,原阿里雲總裁胡曉明說:“網際網路的雲端計算競爭是世界寡頭經濟的全面競爭,在我看來,就是杭州和西雅圖的競爭。誰擁抱技術,誰就擁抱未來。”場主深以為然。
關濤認為:目前雲端計算已經從網際網路企業向傳統企業蔓延,例如杭州的城市大腦和“最多跑一次“專案,是2G(To Government)的專案。還有基於工業大腦的工業4.0專案等。
從目前的市場態度來看,企業或許可以更加開放一些,歡迎和擁抱這種技術變化,完成自我的數字化轉型。“雲端計算不會是寡頭反而會是普惠”,關濤說。
前瞻話題:大資料處理領域,未來程式設計師應該關注什麼東西?
1、 新硬體的發展
計算層面越來越與新硬體的創新緊密結合,硬體會帶來平臺革命。例如晶片類的CPU(AVX、SIMD)、ARM眾核架構、GPU,FPGA,ASIC,儲存類的NVM、SSD、SRM,網路類的智慧網絡卡和RDMA等新硬體的發展,新硬體與軟體的配合是值得關注的發展方向。
2、 非關係型計算領域(圖計算)有很多機會
大資料現在還是在關係型的處理層面,包括流和批都是基於關係型資料的計算,事實上,現在非關係的計算越來越流行了,包括知識圖譜、畫像等越來越有價值,這些資料組織不是關係型表達,而是以點邊的形式用圖的方式表達,更符合物理抽象,比如人和貨的關係,在風控層面,知識圖譜層面,用來描述物理實體的關係更合適。
明年初,將會推出MaxCompute的圖計算系統MaxGraph,支援圖儲存、查詢、模式匹配和GraphEmbedding等機器學習運算。
3、 非結構化資料將變成大資料的主流
越來越多的短視訊、圖片、語音類資料,並隨著IoT的發展,可能佔據80%的資料量,由於這類資料的特性在於結構各不相同,且資料非常大但是單位價值不高(相比傳統結構化資料),如何快速高效的解析和處理非結構化資料,是計算平臺的關鍵挑戰。
去年的時候MaxCompute釋出了一個非結構化資料處理模組,能夠使用者自定義的方式處理包括視訊音訊在內的資料。
4、 Al for Everything(also for BigData)
DBA或將被淘汰?
大資料的特點是大,不僅僅是包括資料的處理規模,還包括了整個的海量資料的管理和優化。傳統資料庫領域依靠DBA人力去管理的模式將不再適用。
用Al優化資料分佈、資料管理、做計算優化和成本優化(例如自動SubQuery合併,智慧索引建立等)。“讓大資料無人駕駛”,這也是未來的趨勢。
注:想了解更多關老闆和MaxCompute技術團隊小夥伴在做的阿里巴巴大資料計算服務MaxCompute,可以加入社群一起交流。
歡迎關注養碼場
本文來自養碼場專訪,轉發需養碼場授權。