雙11之後首秀:阿里雲實時計算究竟對Apache Flink做了哪些‘改造’?
關於實時計算
實時計算LOGO
實時計算(Alibaba Cloud Realtime Compute,原阿里雲流計算)是一套基於Apache Flink™️構建的一站式、高效能實時大資料處理平臺,廣泛適用於流式資料處理、離線資料處理、DataLake計算等多種場景。實時計算主要應用於實時網際網路資料分析、實時資料大屏、實時金融風控、電商實時推薦等諸多領域,助力中國企業向實時化、智慧化大資料計算升級轉型。
歷史和發展
基於Apache Flink™️在阿里巴巴搭建的平臺於2016年正式上線,並從阿里巴巴的搜尋和推薦這兩大場景開始實現。為了將Apache Flink™️在阿里巴巴真正執行起來,阿里巴巴實時計算團隊做了大量的優化,將產品命名為流計算,今年8月已正式更名為實時計算
目前阿里巴巴所有的業務,包括阿里巴巴所有子公司都採用了基於Apache Flink™️搭建的實時計算平臺。同時Apache Flink™️計算平臺執行在開源的Hadoop叢集之上。採用Hadoop的YARN做為資源管理排程,以 HDFS作為資料儲存。因此,Flink可以和開源大資料軟體Hadoop無縫對接。阿里集團內,淘寶、天貓、天弘基金、菜鳥、工業大腦等諸多業務均大量應用了實時計算技術,實時計算今年4月份正式商業化以來,半年時間,在集團外積累使用者也已經超過2000家。
解決痛點
雙十一實時資料大屏(Demo)
阿里雲實時計算可以提供FlinkSQL協助使用者簡單輕鬆完成流式計算邏輯的處理。同時,受限於SQL程式碼功能有限無法滿足某些特定場景的業務需求,實時計算提供全功能的UDF函式,幫助使用者完成業務定製化的資料處理邏輯。在流資料分析領域使用者直接使用FlinkSQL+UDF即可完成大部分流式資料分析處理邏輯,目前的實時計算更擅長於做流式資料分析、統計、處理。主要解決了使用者的三大痛點:
1.流式資料的及時性
在諸如實時大資料分析、風控預警、實時預測、金融交易等諸多業務場景領域,批量(或者說離線)處理對於上述對於資料處理時延要求苛刻的應用領域而言是完全無法勝任其業務需求的。而實時計算作為一類針對流資料的實時計算模型,可有效地縮短全鏈路資料流時延、實時化計算邏輯、平攤計算成本,最終有效滿足實時處理大資料的業務需求。
2.一站式的流式資料處理
不同於開源或者自建的流式處理服務,阿里雲實時算是完全託管的流式計算引擎,可針對流資料執行查詢,無需預置或管理任何基礎設施,使用者可以享受一鍵啟用的流式資料服務能力。阿里雲實時計算天然整合資料開發、資料運維、監控預警等服務,方便使用者最小成本試用和遷移流式計算產品。
3.SQL化的流式分析
支援標準SQL(產品名稱為:FlinkSQL),提供內建的字串處理、時間、統計等各類計算函式,替換業界低效且複雜的Flink開發,讓更多的BI人員、運營人員通過簡單的FlinkSQL可以完成實時化大資料分析和處理,讓實時大資料處理普適化、平民化。
典型場景
實時計算典型場景應用
實時計算擅長解決的幾個領域的應用場景包括,實時的網路點選PV、UV統計;統計交通卡口的平均5分鐘通過車流量;水利大壩的壓力資料統計和展現;網路支付涉及金融盜竊固定行為規則的告警等。特別適合BI人員、大資料開發人員等使用者。
大體分為四種典型場景:
網際網路點選流分析:實時分析網站使用者行為,精準實時把握使用者畫像;
金融實時風控:實時監控金融惡意行為,實時風控避免使用者損失;
物聯網IOT風控:實時監控偵測裝置故障,即使避免潛在業務風險;
電商精準推薦:實時跟蹤使用者行為變化,精準推薦提升產品銷量。
客戶案例
實時計算客戶列舉
經過兩年的發展,實時計算在集團內,淘寶、天貓、螞蟻金服、菜鳥、工業大腦等諸多業務均大量應用了實時計算技術。今年以來,眾安保險、全民TV、千尋、新華智雲等集團外部客戶也上線了諸多實時計算的典型場景和應用。
關於‘獨享模式’
實時計算架構圖
實時計算今年4月份商業化以來,一直以‘共享模式’的形式對外輸出,在批處理領域,SQL 已經經歷了幾十年的考驗,是公認的經典。但另一方面也對使用者造成兩大困擾:
1.僅使用 SQL難以描述自己的業務邏輯;
2.將某些已有的存在於程式碼中的業務邏輯翻譯成SQL,煩不勝煩。
因此,實時計算獨享模式應運而生。獨享模式,是實時計算在原有共享模式基礎上的補充。使用者獨享一部分物理資源,這部分資源在網路/磁碟/CPU/記憶體等資源上跟其他使用者完全獨立。具備UDX開放、豐富的硬體、使用者間的隔離等特性。
權威解讀
實時計算團隊將於11月14日舉辦實時計算產品線上釋出會,屆時重磅釋出實時計算獨享模式,資深技術專家和高階產品專家將共同分享阿里眼中下一代大資料計算引擎大前世今生。
演講主題:《阿里巴巴對Apache Flink™️的改進和貢獻》
王峰(莫問)
阿裡巴巴資深技術專家
2006年畢業後即加入阿里集團,長期從事大資料技術研發工作,目前在計算平臺事業部擔任資深技術專家,負責實時計算引擎團隊,旨在打造世界一流的實時計算平臺。對Apache Flink™️進行了大量架構改進,功能完善和效能提升,打造出了阿里新一代實時計算引擎,並統一服務阿里集團所有實時計算業務和實時計算雲產品。
演講主題:《阿里雲實時計算:下一代大資料計算引擎》
陳守元(巴真)
阿里巴巴高階產品專家
阿里巴巴實時計算團隊產品負責人,2010年畢業即加入阿里集團參與淘寶資料平臺建設,近10年的大資料從業經驗,開源專案Alibaba DataX發起人,當前負責阿里實時計算產品的規劃與設計,致力於推動Apache Flink™️成為下一代大資料處理標準。
此外,針對此次釋出會,我們準備50件禮品給參與互動和問答的同學,歡迎對實時計算/Apache Flink/大資料處理 感興趣的愛好者們屆時觀看活動直播,與我們的嘉賓進行線上互動!
點選閱讀原文,歡迎關注我們的直播活動!
實時計算釘釘群
如果您有實時報表/實時資料大屏/實時金融風控/實時電商推薦等相關實時化資料處理需求,歡迎實時計算釘釘交流群!