美團旅行資料質量監管平臺實踐
轉載:https://blog.csdn.net/meituantech/article/details/79668330
背景
資料,已經成為網際網路企業非常依賴的新型重要資產。資料質量的好壞直接關係到資訊的精準度,也影響到企業的生存和競爭力。Michael Hammer(《Reengineering the Corporation》一書的作者)曾說過,看起來不起眼的資料質量問題,實際上是拆散業務流程的重要標誌。 資料質量管理是測度、提高和驗證質量,以及整合組織資料的方法等一套處理準則,而體量大、速度快和多樣性的特點,決定了大資料質量所需的處理,有別於傳統資訊治理計劃的質量管理方式。
本文將基於美團點評大資料平臺,通過對資料流轉過程中各階段資料質量檢測結果的採集分析、規則引擎、評估反饋和再監測的閉環管理過程出發,從面臨挑戰、建設思路、技術方案、呈現效果及總結等方面,介紹美團平臺酒旅事業群(以下簡稱美旅)資料質量監管平臺DataMan的搭建思路和建設實踐。
挑戰
美旅資料中心日均處理的離線和實時作業高達數萬量級, 如何更加合理、高效的監控每類作業的執行狀態,並將原本分散、孤島式的監控日誌資訊通過規則引擎集中共享、關聯、處理;洞察關鍵資訊,形成事前預判、事中監控、事後跟蹤的質量管理閉環流程;沉澱故障問題,搭建解決方案的知識庫體系。在資料質量監管平臺的規劃建設中,面臨如下挑戰:
- 缺乏統一監控檢視,離線和實時作業監控分散,影響性、關聯性不足。
- 資料質量的衡量標準缺失,資料校驗滯後,資料口徑不統一。
- 問題故障處理流程未閉環,“點”式解決現象常在;缺乏統一歸檔,沒有形成體系的知識庫。
- 資料模型質量監控缺失,模型重複,基礎模型與應用模型的關聯度不足,形成資訊孤島。
- 資料儲存資源增長過快,不能監控細粒度資源內容。
DataMan質量監管平臺研發正基於此,以下為具體建設方案。
解決思路
整體框架
構建美旅大資料質量監控平臺,從可實踐運用的視角出發,整合平臺資源、技術流程核心要點,重點著力平臺支援、技術控制、流程制度、知識體系形成等方向建設,確保質量監控平臺敏捷推進落地的可行性。資料質量監控平臺整體框架如圖1所示:
建設方法
以資料質量檢核管理PDCA方法論,基於美團大資料平臺,對資料質量需求和問題進行全質量生命週期的管理,包括質量問題的定義、檢核監控、發現分析、跟蹤反饋及知識庫沉澱。資料質量PDCA流程圖如圖2所示:
關鍵流程:
質量監管平臺建設實踐應用及價值體現,離不開管理流程、技術實現和組織人員的緊密結合,主要包含如下8大流程步驟:
1. 質量需求:發現數據問題;資訊提報、收集需求;檢核規則的需求等。
2. 提煉規則:梳理規則指標、確定有效指標、檢核指標準確度和衡量標準。
3. 規則庫構建:檢核物件配置、排程配置、規則配置、檢核範圍確認、檢核標準確定等。
4. 執行檢核:排程配置、排程執行、檢核程式碼。
5. 問題檢核:檢核問題展示、分類、質量分析、質量嚴重等級分類等。
6. 分析報告:資料質量報告、質量問題趨勢分析,影響度分析,解決方案達成共識。
7. 落實處理:方案落實執行、跟蹤管理、解決方案Review及標準化提煉。
8. 知識庫體系形成:知識經驗總結、標準方案沉澱、知識庫體系建設。
質量檢核標準
- 完整性:主要包括實體缺失、屬性缺失、記錄缺失和欄位值缺失四個方面;
- 準確性:一個數據值與設定為準確的值之間的一致程度,或與可接受程度之間的差異;
- 合理性:主要包括格式、型別、值域和業務規則的合理有效;
- 一致性:系統之間的資料差異和相互矛盾的一致性,業務指標統一定義,資料邏輯加工結果一致性;
- 及時性:資料倉庫ETL、應用展現的及時和快速性,Jobs執行耗時、執行質量、依賴執行及時性。
大資料平臺下的質量檢核標準更需考慮到大資料的快變化、多維度、定製化及資源量大等特性,如數倉及應用BI系統的質量故障等級分類、資料模型熱度標準定義、作業執行耗時標準分類等和數倉模型邏輯分層及主題劃分組合如下圖3所示。
美旅數倉劃分為客服、流量、運營、訂單、門店、產品、參與人、風控、結算和公用等十大主題,按Base、Fact、Topic、App邏輯分層,形成體系化的物理模型。從資料價值量化、儲存資源優化等指標評估,劃分物理模型為熱、溫、冷、冰等四類標準,結合應用自定義其具體標準範圍,實現其靈活性配置;作業執行耗時分為:優、良、一般、關注、耗時等,每類耗時定義的標準範圍既符合大資料的特性又可滿足具體分析需要,且作業耗時與數倉主題和邏輯分層深度整合,實現多角度質量洞察評估;針對數萬的作業資訊從資料時效性、作業執行等級、服務物件範圍等視角,將其故障等級分為S1:嚴重度極高;S2:嚴重度高; S3:嚴重度中; S4:嚴重度低等四項標準,各項均對應具體的實施策略。整體資料質量的檢核物件包括離線數倉和實時資料。
監管核心點
資料質量功能模組設計的主要功能如上圖4所示,包括:監控物件管理、檢核指標管理、資料質量過程監控、問題跟蹤管理、推薦優化管理、知識庫管理及系統管理等。其中過程監控包括離線資料監控、實時資料監控;問題跟蹤處理由問題發現(支援自動檢核、人工錄入)、問題提報、任務推送、故障定級、故障處理、知識庫沉澱等形成閉環流程。
管理流程
流程化管理是推進資料問題從發現、跟蹤、解決到總結提煉的合理有效工具。質量管理流程包括:資料質量問題提報、資料質量問題分析、故障跟蹤、解決驗證、資料質量評估分析等主要環節步驟;從干係人員的角度分析包括資料質量管理人員、資料質量檢查人員、資料平臺開發人員、業務及BI商分人員等,從流程步驟到管理人員形成職責和角色的矩陣圖。如圖5所示:
問題彙總: 資料質量提報、ETL處理及監控過程上報、資料質量檢查點等多方來源,其中ETL處理部分為程式自動化上報,減少人為干預。
問題分析: 通過規定的角色和崗位的人員對彙總問題分析和評估,由統一公共賬號自動推送提醒訊息至責任人。
問題工單: 對採集的問題經過分析歸類,主要劃為資訊提示和故障問題兩大類,資訊提示無需工單生成,故障問題將產生對應的工單,後推送至工單處理人。
故障定級: 針對生成的問題工單判斷其故障級別,其級別分為:S1、S2、S3、S4等四類(如圖3所述),針對尤為嚴重的故障問題需Review機制並持續跟蹤CaseStudy總結。
知識庫體系: 從由資料問題、解決方案、典型案例等內容中,提煉總結形成標準化、完備知識庫體系,以質量問題中提煉價值,形成標準,更加有效的指導業務、規範業務,提高源頭資料質量,提升業務服務水平。
質量流程管理:
- 流程原則:統一流程、步驟穩定。
- 許可權控制:流程節點與人員賬戶號繫結,若節點未設定人員賬戶即面向所有人員,否則為規定範圍的人員。
- 許可權管理:可結合美團平臺的UPM系統許可權管理機制。
技術方案
總體架構
DataMan系統建設總體方案基於美團的大資料技術平臺。自底向上包括:檢測資料採集、質量集市處理層;質量規則引擎模型儲存層;系統功能層及系統應用展示層等。整個資料質量檢核點基於技術性、業務性檢測,形成完整的資料質量報告與問題跟蹤機制,建立質量知識庫,確保資料質量的完整性(Completeness)、正確性(Correctness)、當前性(Currency)、一致性(Consistency)。
總體架構圖如圖6所示:
- 資料來源及集市層:首先採集資料平臺質量相關的元資料資訊、監控日誌資訊、實時日誌、檢測配置中心日誌、作業日誌及排程平臺日誌等關鍵的質量元資料;經資料質量集市的模型設計、監控物件的分類,加工形成完整、緊關聯、多維度、易分析的資料質量基礎資料模型,為上層質量應用分析奠定資料基礎。資料來源自大資料平臺、實時數倉、排程平臺等,涉及到Hive、 Spark、Storm、 Kafka、MySQL及BI應用等相關平臺數據源;
- 儲存模型層:主要功能包括規則引擎資料配置、質量模型結果儲存;以資料質量監控、影響關聯、全方位監控等目標規則引擎的推動方式,將加工結果資料儲存至關係型資料庫中,構成精簡高質資料層;
- 系統功能層:包括配置管理、過程監控、問題跟蹤、故障流程管理、實時資料監控、知識庫體系的建立等;處理的物件包括日誌執行作業、物理監控模型、業務監控模型等主要實體;
- 系統展示層:通過介面化方式管理、展示資料質量狀態,包括質量監控介面、推薦優化模組、質量分析、資訊展示、問題提報、故障跟蹤及測量定級、系統許可權管理等功能。
技術框架
前後端技術
DataMan應用系統其前端框架(如上圖7)基於Bootstrap開發,模板引擎為FreeMarker,Tomcat(開發環境)作為預設Web容器,通過MVC的方式實現與應用服務層對接。Bootstrap的優勢基於jQuery,豐富的CSS、JS元件,相容多種瀏覽器,介面風格統一等;FreeMarker為基於模板用來生成輸出文字的引擎。後臺基於開源框架Spring4,Spring Boot,Hibernate搭建,其集成了Druid,Apache系列和Zebra等資料庫訪問中介軟體等,為系統的功能開發帶來更多選擇和便利。
Zebra中介軟體
系統資料庫連線採用中介軟體Zebra,這是美團點評DBA團隊推薦的官方資料來源元件,基於JDBC、API協議上開發出的高可用、高效能的資料庫訪問層解決方案;提供如動態配置、監控、讀寫分離、分庫分表等功能。Zebra整體架構如圖8所示:
Zebra客戶端會據路由配置直連到MySQL資料庫進行讀寫分離和負載均衡。RDS是一站式的資料庫管理平臺,提供Zebra的路由配置資訊的維護;MHA元件和從庫監控服務分別負責主庫和從庫的高可用。Zebra支援豐富的底層連線池;統一源資料配置管理;讀寫分離和分庫分表;資料庫的高可用。
資料模型
整個質量監管平臺數據流向為資料質量元資料資訊採集於美團平臺,包括資料倉庫元資料資訊、質量檢測元資料、排程平臺日誌資訊、監控日誌及實時元資料資訊等,加工形成獨立資料質量的集市模型,以此支撐應用層系統的資料需求。應用層系統資料庫採用關係型資料庫儲存的方式,主要包含了規則配置管理資訊、資料質量結果庫等資訊內容。資料流向層級關係圖如下:
資料平臺層:基於美團大資料平臺的資料質量元資料是質量分析和監管的來源,是整個系統最基礎重要資源資訊,此資料主要包括:數倉元資料資訊,如數倉模型表基本資訊、表儲存空間資源資訊、表分割槽資訊、節點資訊、資料庫meta資訊、資料庫資源資訊等;執行作業排程日誌資訊,如作業基本資訊、作業執行資源資訊、作業排程狀態資訊、作業依賴關係資訊及作業排程日誌監控資訊等;質量檢測元資料資訊主要來源於SLA、DQC(美團內部系統)檢測結果的資訊。實時元資料採集於排程平臺實時作業執行的API介面呼叫分析。
質量集市層:DM資料質量集市的獨立建立是依託基礎元資料資訊,根據質量監管平臺配置的引擎規則ETL加工形成。規則庫引擎如數倉應用主題的劃分規則、數倉邏輯分層約束、資料庫引擎分類、模型使用熱度等級、模型儲存空間分類、資源增長等級、歷史週期分類、作業重要級別、作業執行耗時等級、作業故障分類、及資料質量標準化定義等;在管理方向上,如模型或作業所屬的業務條線、組織架構、開發人員等;在時效上分為離線監控資料、實時資料集市等。從多個維度交叉組合分析形成模型類、作業類、監控日誌類、實時類等主題的等易理解、簡單、快捷的資料質量集市層,強有力的支撐上層應用層功能的資料需求。資料質量集市DM主要模型如圖10所示:
圖10 資料質量集市模型圖
- 模型設計:“統一規範、簡單快捷、快速迭代、保障質量”,基於美團平臺元資料、平臺日誌、實時資料介面等來源,通過制定的規則、標準,形成可衡量、可評估的資料質量集市層,主要包含公共維度類、模型分析類、作業監控類、平臺監控類等主要內容;
- 實時資料:針對實時作業的監控通過API介面呼叫,後落地資料,實時監控作業執行日誌狀態;
- 資料加工:基於美團平臺離線Hive、Spark引擎執行排程,以數倉模型分層、數倉十大主題規則和資料質量規則庫等為約束條件,加工形成獨立的資料集市層。
應用分析層:應用層系統資料採用關係型資料庫(MySQL)儲存的方式,主要包含了規則配置管理資訊、資料質量分析結果、實時API落地資料、故障問題資料、知識庫資訊、流程管理及系統管理類等資訊內容,直接面對前端介面的展示和管理。
系統展示
資料質量DataMan監控系統一期建設主要實現的功能包括:個人工作臺、資訊監控、推薦資訊、資訊提報、故障管理、配置管理及許可權系統管理等。系統效果如圖11所示:
個人工作臺
在系統中將個人待關注、待處理、待優化、待總結等與個人相關的問題和任務形成統一的工作平臺入口,通過公共賬號推送的方式,第一時間提醒個人,通知反饋問題的提出者,保障問題可跟蹤,進度可查詢,責任到人的工作流程機制。
離線監控
系統可定時執行模型監控、作業監控、平臺日誌監控等元資料質量規則引擎,開展資料倉庫主題模型、邏輯層級作業、儲存資源空間、作業耗時、CPU及記憶體資源等細化深度分析和洞察;按照質量分析模型,以時間、增長趨勢、同環比、歷史基線點等多維度、全面整合打造統一監控平臺。
實時監控
從應用角度將作業按照業務條線、數倉分層、數倉主題、組織結構和人員等維度劃分,結合作業基線資訊,實時監控正在執行的作業質量,並與作業基線形成對比參照,預警不符合標準的指標資訊,第一時間通知責任人。實時作業執行與基線對比監控效果如圖12所示:
推薦資訊
系統通過規則引擎的設定和自動排程的執行,從儲存資源配置、資料模型優化、作業優化、日誌錯誤超時、預警通知等方面考慮,以制定的質量標準為評估依據,自動檢測評估,彙總問題,形成可靠的推薦優化內容,並在達到閾值條件後主動推送訊息,觸發後續任務開展。
公共賬號
通過“資料治理公共賬號”機器人傳送訊息模式,將預判觸發的預警通知、任務分配、任務提醒和風險評估等資訊第一時間通知相應的負責人員,開啟工作流程。
故障處理
支援自動提報和人工填報兩種模式,以閉環工作流方式開展工作,確保問題故障可跟蹤、可查詢、可定級、可考核、可量化,以責任到人、落地可行的處理模式,嚴控資料質量,從根本上提高資料質量,提升業務服務水平。
DataMan質量監管系統的投入運營,優化資料儲存資源、提高作業效能、降低任務耗時、推進了管理工作的規範化和精細化。資訊推薦功能以推送通知的形式將待優化、存風險和超時故障資訊第一時間傳送個人工作臺,以工作流機制推動開展;模型監控、作業監控功能在資料儲存、模型建設、作業耗時等場景合理的控制資源,節省了投資成本。 問題提報和故障管理功能的有效結合,將問題發現、提報、任務分配、處理完成及Review總結沉澱等形成了責任到人、問題可詢的閉環流程。隨著系統的深入執行,將在實時資料監控、質量故障統計管理、資料質量考核機制、資料資產質量權威報告、知識庫體系標準化及流程深化管理等功能方面持續推進和發揮價值。
總結
資料質量是資料治理建設的重要一環,與元資料管理、資料標準化及資料服務管理等共同構建了資料治理的體系框架。建設一個完整DataMan質量監管平臺,將從監控、標準、流程制度等方面提升資訊管理能力,優先解決所面臨的資料質量和資料服務問題,其效果體現以下幾個方面:
- 監控資料資產質量狀態,為優化資料平臺和資料倉庫效能、合理配置資料儲存資源提供決策支援;
- 持續推動資料質量監控優化預警、實時監控的機制;
- 重點優先監控關鍵核心資料資產,管控優化20%核心資源,可提升80%需求應用效能;
- 規範了問題故障的跟蹤、Review、優化方案。從資料中提煉價值,從方案中形成標準化的知識體系;
- 由技術檢測到業務監督,形成閉環工作流機制,提高整體資料質量,全面提升服務業務水平。
資料質量是資料倉庫建設、資料應用建設和決策支援的關鍵因素,可通過完善組織架構和管理流程,加強部門間銜接和協調,嚴格按照標準或考核指標執行落地,確保資料質量方能將資料的商業價值最大化,進而提升企業的核心競爭力和保持企業的可持續發展。