從大資料平臺到資料中臺
大資料概念
2011年,美國麥肯錫在研究報告《大資料的下一個前沿:創新、競爭和生產力》中定義大資料是指大小超出典型資料庫軟體工具收集、儲存、管理和分析能力的資料集。但是這個定義過於簡單,作為對照理解,Gartner研究機構定義的大資料是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。後者“資訊量”比較大,突出了以下幾點:
大資料是海量、高增長率和多樣化的資訊資產;
大資料具有更強的決策力、洞察發現力和流程優化能力;
大資料的上述能力需要新處理模式才能達到。
由於大資料的定義眾說紛紜,我們可以從大資料的5V特徵入手,來認識大資料:
Volume:主要指資料集的規模大,而資料集的型別可以是記錄或者日誌資料,也可以是線上事務資料,儲存形式可以是資料庫表或者檔案。大資料集通常在TB級別,因為資料量的持續增長,該標準不是固定的,未來還會提高。
Velocity:不僅指資料產生和流動速率快,也指資料處理及時、快速。相比批處理,實時處理在某些場合下是必選方式。
Variety:大資料包括多種不同格式和不同型別的資料。資料來源包括人與系統互動時與機器自動生成,來源的多樣性導致資料型別的多樣性。根據資料是否具有一定的模式、結構和關係,資料可分為三種基本型別:結構化資料、非結構化資料、半結構化資料。
Veracity:真實性要求大資料來源可信、可追溯、可審計,否則大資料將失去可用價值。
Value:資料價值密度相對較低,資料蘊含的價值並沒有隨著數量或者時間同比例增長。大資料的價值更多體現在統計意義和相關性上,因此對於該特徵要求我們進行思維變革才能理解大資料的價值:
關於大資料的應用可以追溯到19世紀末美國人口普查,大資料的發展大致劃分為如下圖所示的4各階段:萌芽期、成長期、普及期和爆發期。
為了更進一步瞭解大資料在實踐中的落地應用,這裡列舉幾種身邊的大資料案例:
從上圖中可知大資料在很多年前,很多方面都有很成熟的應用:比如天氣預報、經濟預測、政治選舉、反恐、智慧城市、體育訓練、電子商務、疾病防控、社會治理和教育等。正如網際網路可以加一切行業一樣,大資料同樣可以加一切行業,而且比網際網路應用範圍更廣、更深入。但大資料落地,特別是在傳統行業尤其面臨很多挑戰,同時也是機遇,比如:
資訊化程度低:造成這種問題的根源在於認知,著名歷史學家黃仁宇對比中美文化指出中國文化形象是定性而不是定量,其次才是沒有資料積累和大資料相關的技術。
資料質量:表現為資料標準不統一、缺少規範、資料不一致,導致資料不可用。
資料管理、技術、架構、成本:表現為管理、技術落後、架構複雜導致系統升級成本高。
運營轉型:隨著大資料在電商等領域應用成熟,領域也拓展到核心業務周邊領域,相應的運營策略逐漸從粗獷運營轉向跨領域、精細化運營,原有的“煙囪”開發模式無法滿足膨脹增長的資料需求。
資料安全:突出表現在對使用者隱私資訊的收集和利用上,對跨國企業還面臨著不同文化導致的國家層面政治安全的博弈問題。
大資料架構案例
時至今日,大資料在各家網際網路公司已經相對完善,架構和應用模式基本確定,下面列舉幾家企業案例,從技術產品架構角度看看各家企業在大資料方面的建設和應用實踐。
網易大資料平臺
猛獁大資料平臺是網易大資料平臺產品的代表,從上述架構圖中,可以看到其基於開源的作業流排程系統Azkaban,實現了對不同資料來源的實時和非實時的收集、儲存和計算。使用的技術基於常規的、開源的大資料如Hive、Spark、Hbase和Yarn,只不過是在它們基礎上包裝成易於使用的開發套件,如資料整合、資料開發、任務運維、自助分析和資料管理等,此外還包括必要的功能如元資料管理、資料質量管理等。由於開源技術的蓬勃發展和普遍使用,基於自建叢集之上獨立部署大資料平臺是各類企業普遍採用的方式,不足之處是投入成本巨大,不僅包括硬體還包括運維、開發等。
阿里巴巴大資料平臺
阿里巴巴作為雲上大資料平臺基礎技術設施的提供者,更強調技術的效能、穩定性和自主性,比如為了支援更大規模的資料處理叢集,一站式的資料儲存和計算服務平臺MaxCompute取代了Hadoop,成為雲上資料倉庫的技術基礎。MaxCompute跟DataWorks等產品緊密結合,實現更為完整的解決方案,比如DataWorks為MaxCompute提供一站式的資料同步、業務流程設計、資料開發、管理和運維等功能。
另外雲上資料來源多樣,比如資料庫DB,外部檔案系統OSS或者伺服器日誌ECS,資料傳輸可以使用阿里雲資料傳輸產品DTS,也可以通過日誌收集工具投遞到Kafka或者DataHub,這些構成雲上大資料平臺的基礎底座,由於其具備的彈性擴容帶來的免運維特性給傳統的大資料平臺帶來不小的衝擊,尤其是技術能力薄弱的中小企業,企業上雲成為明智選擇。
亞馬遜大資料平臺
作為雲端計算的鼻祖,亞馬遜原則上不提供具體的大資料平臺架構,只提供推薦參考架構,但具體的產品元件功能異常豐富和完善。上圖中Amazon EMR作為架構的核心,提供彈性大資料儲存和計算服務,EMR是一套產品的組合,包括常見的開源技術如Hadoop、Hive、Spark、HBase、Flink等,使用者在開啟叢集的時候可以自由定製所使用的產品組合、版本以及分配伺服器的數量、規格和擴容策略等。值得一提的是Amazon基於物件儲存S3和獨立的元資料中心Glue實現了計算和儲存分離,用一套資料儲存、多種計算引擎,互不干涉,為分散式架構提升到新的高度。在這種架構模式之下,實現資料湖變得異常容易,參考下圖示意:
其中基於無服務部署的Athena資料分析服務可以讓客戶完全忽略底層的服務架構,只專注於業務分析,帶來了相比EMR更為強大、便利的體驗。
大資料中臺
如果把大資料平臺看做技術的沉澱,那麼資料中臺就可以看做資料和業務的沉澱:
從圖中資料中臺的發展路徑,可知資料中臺的產生不是憑空出現:只有當技術和業務積累到一定階段才可能出現,過早搭建資料中臺只會阻礙業務的進步。為了解釋中臺是什麼,先看下中臺有什麼優勢:
在二戰時期,美軍是以龐大的軍隊為單位作戰;到了越戰時,以營為單位作戰;到了中東戰鬥的時候,以7人或者11人的極小班排去作戰,這就是今天具備最強核心競爭力和打擊能力的組織。而美軍之所以能靈活作戰,敢放這麼小的團隊到前方,是因為有非常強的中臺能力,這些能力包括戰鬥直升機、艦炮遠端支援、戰術導彈系統、戰鬥機支援體系等,這些能力能支援小團隊快速做判斷,並且引領整個炮火覆蓋和定點清除。“⼤平臺炮火支撐精兵作戰”是“大”中臺、“小”前臺戰略的具體應用。在IT領域,中臺可以抽象為企業級的能力複用平臺,中臺除了我們熟知的資料中臺還有技術中臺、業務中臺等,詳見下圖:
大資料中臺概念在國內風靡一時,國外目前所知甚少,基本是跟資料平臺合在一起。其中資料中臺和業務中臺是數字中臺的主要形式,兩者相輔相成,相互促進,依託於技術中臺,這三者關係為:
資料中臺從後臺及業務中臺將資料匯入,進行資料的共享融合、組織處理、建模分析、管理治理和服務應用,統一資料標 準口徑,以API的方式提供服務,是綜合性資料能力平臺。資料中臺為前臺業務部門提供決策快速響應、精細化運營及應 用支撐等,讓資料業務化,避免“資料孤島”的出現,提升業務效率,更好地驅動業務發展和創新。典型的資料中臺架構和資料處理流程可表示如下:
大資料中臺實踐案例
阿里巴巴資料中臺
作為國內大資料中臺的引領者,阿里巴巴通過OneId、OneData、OneService打通實體、資料和服務,解決自身資料孤島問題。
數瀾科技資料中臺
數瀾科技作為國內資料中臺,面向行業解決方案的重要提供者,以資料資產為核心,形成資料匯聚和開發、資料體系和資料服務體系,為客戶提供標準化、系統化的中臺架構。
網易資料中臺
以網易為代表的企業在跟隨中臺引領者提供的中臺建設理念和思路,結合企業實際搭建滿足企業需求的資料中臺。
資料中臺實施
資料中臺建設方法論
資料中臺是集方法論、工具、組織於一體的“快”、“準”、“全”、“統”、“通”的智慧大資料體系。核心內容包括資料中臺方法論、工具、組織。
首先,在方法論層面要有全域性觀統領,單獨談區域性的技術、系統或結構,都不能實現真正的資料中臺建設;
其次,必須將思想產品化,形成一個真正普適性的工具或產品;
第三,資料中臺的建設不是一個數據系統專案,而是組織文化的變革,是真正把資料變為資產的一種變革。
資料中臺實施路徑
第一階段:全域性架構與初始化。
基於智慧大資料解決方案,配置和部署資料中臺相關產品,同時全域性架構資料中臺,以便後續逐步做厚;
基於資料中臺全域性架構,從資料向上、從業務向下同步思考,初始化資料採集、資料公共層建設,並初始化最關鍵的資料應用層建設;
結合業務思考,直接解決業務看資料、用資料的最關鍵且最易感知的若干場景應用。
第二階段:迭代資料中臺深化應用。
迭代調優資料中臺全域性架構,加配合完善資料中臺相關產品套件;
迭代調優資料中臺的初始化資料彙集、資料公共層和資料應用層,持續推進資料公共層的豐富完善,並平衡資料應用層建設;
深入業務思考,優化場景應用,拓展場景應用。
第三階段:全面推進業務資料化。
持續基於業務的資料中臺建設;
全面推進業務資料化,不斷優化、拓展應用場景。
資料中臺架構
資料中臺系統架構
資料中臺由大資料平臺及傳統資料倉庫兩部分構成:
大資料平臺通過外部工具彙集結構化、半結構化或者非結構化資料進入分散式叢集,如HDFS,計算引擎如Hive、Spark等基於資源排程管理實現對叢集資料處理。資料倉庫從業務系統中批量或者實時採集資料,按照分層設計實現資料建模,各層次示意圖如下:
資料倉庫對外以Table或者View對外暴露資料訪問介面,使用者通過儀表盤、報表或者通過SQL語句等跟資料倉庫互動,實現企業決策分析基本功能。
大資料平臺計算結果資料可以反饋儲存到資料倉庫,形成結構化規範資料表,同樣也可以讀取資料倉庫資料進行深度價值挖掘,結果以內表或者外表形式對外暴露訪問介面。
上述資料中臺系統架構從技術視角可以展示為下圖所示:功能模組可以劃分為資料採集、資料計算、資料儲存、資料治理和資料服務,這些構成資料中臺的核心職能。
資料中臺技術架構
資料中臺技術架構是邏輯架構的物理對映,是結合公司現狀和技術棧等因素落地的產物,因此脫離實際談技術架構是無意義的,但是提供必要的技術結構說明是必要的,因此本文綜合各種場景,儘量給出相對通用的架構。
資料中臺基本職能包括資料服務、資料資產管理、安全管理、運維監控、任務排程和資料開發。資料處理流程主要包括資料採集、資料儲存和計算、查詢和應用。其中資料採集來源於全域資料,包括伺服器日誌、多媒體資料、IOT實時資料、業務資料庫資料比如MySQL,Oracle,SQL Server等,以及網路爬蟲來源的資料等。
資料儲存架構可以基於公有云如AWS、Aliyun、Huawei雲,也可以基於私有云部署。大資料元件的運維部署可以基於開源的CDH,也可以採用AWS或者aliyun的EMR。在伺服器的選擇上可以基於阿里雲的彈性伺服器ECS,同樣也可以選擇虛擬化Docker部署。在資源管理排程上同樣可以選擇YARN、Mesos或者Kerbernates。
在資料計算方面支援批處理和實時處理,另外也支援圖計算和機器學習。
在資料查詢方面,為了支援不同型別資料規模和特徵,將資料分析引擎大致分為3類:互動式分析、時序分析和線上查詢引擎。其中互動式分析主要選擇有Impala、Spark SQL和Kylin。時序分析主要面向物聯網大量資料的訪問,可以選擇的引擎為Druid和ClickHouse。線上查詢主要面向熱資料訪問,引擎可以選擇Mysql、Redis、Elastic Search和HBase等 。
參考
中國數字中臺行業研究報告 艾瑞諮詢 2019
阿里雲金融行業資料中臺報告 2020
資料資產管理實踐白皮書 中國信通院 4.0
<<資料中臺:讓資料用起來>>