1. 程式人生 > 其它 >01 | 資料中臺筆記-中臺的來源

01 | 資料中臺筆記-中臺的來源

一、數倉的前世今生

  1. 起源

​ 商業智慧(Business Intelligence)誕生在上個世紀 90 年代,它是將企業已有的資料轉化為知識,幫助企業做出經營分析決策。這些都離不開大量的資料分析。而資料分析需要聚合多個業務系統的資料,比如需要整合交易系統的資料,需要整合倉儲系統的資料等等,同時需要儲存歷史資料,進行大資料量的範圍查詢。傳統資料庫面向單一業務系統,主要實現的是面向事務的增刪改查,已經不能滿足資料分析的場景,這促使資料倉庫概念的出現。

2.建模方法

​ 比爾·恩門 和金博爾(Kimball) 共同開創的數倉建模的設計方法,這個方法對於後來基於資料湖的現代資料倉庫的設計有重要的意義,所以你有必要了解。

  • 恩門提出的建模方法自頂向下(這裡的頂是指資料的來源,在傳統資料倉庫中,就是各個業務資料庫),基於業務中各個實體以及實體之間的關係,構建資料倉庫。

  • 金博爾建模與恩門正好相反,是一種自底向上的模型設計方法,從資料分析的需求出發,拆分維度和事實。(工作開發普遍在用,推薦!!!)

二、Hadoop到資料湖

  1. Hadoop出現

    2003 年開始,網際網路巨頭谷歌先後發表了 3 篇論文:《The Google File System》《MapReduce:Simplified Data Processing on Large Clusters》《Bigtable:A Distributed Storage System for Structed Data》,這三篇論文奠定了現代大資料的技術基礎。

    ​ 但 2005 年 Hadoop 出現的時候,大資料技術才開始普及。你可以把 Hadoop 認為是前面三篇論文的一個開源實現,我認為 Hadoop 相比傳統資料倉庫主要有兩個優勢:

    • 完全分散式,易於擴充套件,可以使用價格低廉的機器堆出一個計算、儲存能力很強的叢集,滿足海量資料的處理要求;

    • 弱化資料格式,資料被整合到 Hadoop 之後,可以不保留任何資料格式,資料模型與資料儲存分離,資料在被使用的時候,可以按照不同的模型讀取,滿足異構資料靈活分析的需求。

  2. 資料湖提出

    資料湖概念的提出,我認為是 Hadoop 從開源技術走向商業化成熟的標誌。企業可以基於 Hadoop 構建資料湖,將資料作為一種企業核心資產。

    資料湖拉開了 Hadoop 商用化的大幕,但是一個商用的 Hadoop 包含 20 多種計算引擎, 資料研發涉及流程非常多,技術門檻限制了 Hadoop 的商用化程序。那麼如何讓資料的加工像工廠一樣,直接在裝置流水線上完成呢?資料工廠時代:大資料平臺興起

三、資料工廠時代:大資料平臺興起

​ 對於一個數據開發,在完成一項需求時,常見的一個流程是首先要把資料匯入到大資料平臺中,然後按照需求進行資料開發。開發完成以後要進行資料驗證比對,確認是否符合預期。接下來是把資料釋出上線,提交排程。最後是日常的任務運維,確保任務每日能夠正常產出資料。

​ 提出大資料平臺的概念,就是為了提高資料研發的效率,降低資料研發的門檻,讓資料能夠在一個裝置流水線上快速地完成加工。

大資料平臺是面向資料研發場景的,覆蓋資料研發的完整鏈路的資料工作臺

Hive、Spark、Flink、Impala 提供了大資料計算引擎:

  • Hive、Spark 主要解決離線資料清洗、加工的場景,目前,Spark 用得越來越多,效能要比 Hive 高不少;
  • Flink 主要是解決實時計算的場景;
  • Impala 主要是解決互動式查詢的場景。

四、資料中臺崛起

​ 時間到了 2016 年前後,網際網路高速發展,背後對資料的需求越來越多,資料的應用場景也越來越多,有大量的資料產品進入到了我們運營的日常工作,成為運營工作中不可或缺的一部分。在電商業務中,有供應鏈系統,供應鏈系統會根據各個商品的毛利、庫存、銷售資料以及商品的輿情,產生商品的補貨決策,然後推送給採購系統。

大規模資料的應用,也逐漸暴露出現一些問題。

業務發展前期,為了快速實現業務的需求,煙囪式的開發導致企業不同業務線,甚至相同業務線的不同應用之間,資料都是割裂的。兩個資料應用的相同指標,展示的結果不一致,導致運營對資料的信任度下降。如果你是運營,當你想看一下商品的銷售額,發現兩個報表上,都叫銷售額的指標出現了兩個值,你的感受如何? 你第一反應肯定是資料算錯了,你不敢繼續使用這個資料了。

  • 如果你是運營,當你想要一個數據的時候,開發告訴你至少需要一週,你肯定想是不是太慢了,能不能再快一點兒?

  • 如果你是資料開發,當面對大量的需求的時候,你肯定是在抱怨,需求太多,人太少,活幹不完。

  • 如果你是一個企業的老闆,當你看到每個月的賬單成指數級增長的時候,你肯定覺得這也太貴了,能不能再省一點,要不吃不消了。

    這些問題的根源在於,資料無法共享。2016 年,阿里巴巴率先提出了“資料中臺”的口號。資料中臺的核心,是避免資料的重複計算,通過資料服務化,提高資料的共享能力,賦能資料應用