1. 程式人生 > >螞蟻金服數據質量治理架構與實踐

螞蟻金服數據質量治理架構與實踐

變更管理 以及 可能 dig 行數 統計 場景 流程圖 螞蟻

摘要:以“數字金融新原力(The New Force of Digital Finance)”為主題,螞蟻金服ATEC城市峰會於2019年1月4日上海如期舉辦。金融智能專場分論壇上,螞蟻金服數據平臺部高級數據技術專家李俊華做了主題為《螞蟻金服數據治理之數據質量治理實踐》的精彩分享。

演講中,李俊華介紹了螞蟻金服數據架構體系的免疫系統——數據質量治理體系,此外還著重介紹了數據質量實施的相關內容,以及螞蟻的數據質量治理實踐與所面對的實際挑戰。
技術分享圖片
李俊華 螞蟻金服數據平臺部高級數據技術專家

本文將主要圍繞以下三部分進行分享:

  1. 數據治理概況

  2. 數據質量治理挑戰

  3. 數據質量治理實踐

一、數據治理概況

近年來,螞蟻金服不斷在數據架構上進行升級改造,其目的在於解決螞蟻所面臨的數據物理孤島問題。如今,螞蟻以及整個阿裏巴巴集團的底座都統一到了同一個平臺上,這樣當實現第五代數據架構體系升級時,就降低了一站式研發的整體門檻,並使得螞蟻金服的所有工程師都可以在平臺上輕松玩轉數據。如今,在螞蟻的數據架構中已經能夠很好地解決數據孤島問題,而如今在數據治理體系中所需要關註的就是邏輯的孤島。
技術分享圖片


在對數據治理展開論述之前,先談一談數據價值。之前的情況是,當數據首先需要經過專門團隊負責處理,刪除沒有價值的數據,負責上線或者下線數據。但是,對於數據價值的判斷也是一個非常令人頭疼的問題,大部分的數據只會上線不會下線,這樣就造成了大量沒有價值的數據的堆積。而如今,螞蟻不僅關心下線沒有價值的數據,同時也側重數據資產的價值最大化。在數據價值方面,螞蟻有一套完整的數據資產等級以及數據資產的易用模型,這樣就能夠驅動自身充分利用數據資產,來創造更多的價值。但是如果這些數據被使用了,但是質量卻很低,這樣就會使得數據資產的價值大打折扣。

數據質量產生分析

接下來將重點介紹螞蟻金服在數據治理質量領域的實踐思路和方案,並與大家分享兩個案例。如下圖所示的是抽象數據抽取的全流程圖。當某個業務同學錄入數據的時候出現一點錯誤,就會造成數據的質量問題,比如把客戶的行業信息填錯或者打錯了一個字都會造成數據質量問題,而這樣的問題很容易出現。在基於傳統數據庫資產開發數據應用的時候,基本都是從數據源端產數據過來,經過加工、分析再將數據發送出去,也就是“從業務中來,最後回到業務中去”。現在的方案與之前存在很大區別,以前做數據處理時,從數據生產的采集數據來,加工之後就給出去了,而如今螞蟻很多數據應用將數據處理之後還會回到數據系統中。比如芝麻信用分的計算中存在很多大家看不到的場景,這些數據處理之後還會回到系統之中,而這個過程中每個環節都可能存在數據質量問題。
技術分享圖片

二、數據質量治理的挑戰

在下圖中的左側展示了螞蟻的業務形態。如今,螞蟻的業務場景已經不再僅限於統計分析,而在螞蟻的芝麻分、花唄、借唄以及“310”放款的背後都是數據在進行支撐並驅動著其發展。今天,螞蟻的業務形態成為了“技術+數據+算法”三者的融合來追求價值最大化。與此同時,數據質量治理也存在著諸多挑戰,它們來自於業務方面、數據方面、用戶方面。
技術分享圖片

三、數據質量治理實踐

數據質量治理思路

從事金融業務的同學往往深有感觸,互聯網金融時代業務的生命周期縮短了很多,並且變化也非常頻繁,相比於原本銀行的節奏顯得非常快。此外,目前無論是螞蟻金服還是阿裏巴巴都在談“數據業務化、業務數據化”,數據和業務一同共同發展和前進,並且已經進入了發展的深水區。之前的幾年,螞蟻在業務上偏向於“T+1”,而如今,原來的架構體系不足以支撐螞蟻未來繼續發展以及高時效性的訴求。同時,如今螞蟻的數據體量很大,而數據業務也驅動螞蟻的整個人才體系的升級。現在,除了本身做數據算法研發的同學之外,其他的技術同學也都會在平臺上使用數據,這些同學可能對於數據的認知不同,那麽在數據驅動下真正保證數據質量就顯得異常重要。

那麽如何實現數據質量治理呢?首先,需要有一套明確的組織,這是持續建設企業文化的土壤,而數據質量治理文化的建設一定是一個確定的、有組織的並且需要長期持續推進的事情。在組織保障和質量文化的基礎之上,螞蟻還側重了研發流和數據流。在金融領域,研發流的管控更嚴格,也更嚴謹。而對於如今的互聯網金融而言,也需要進行強管控,這是因為業務形態決定了研發周期很短,現在螞蟻在研發流做了強管控,在一站式數據研發平臺上,使用了分級管控。需求提出之後就會被等級管理,並且進行打標,進而走入不同流程。此外,研發流上還側重分級管控,在同一套標準上定義級別,拉平不同的研發流。對於數據流而言,當一個應用發布到生產環境之後,大部分精力花費在數據流中,每天需要從生產環境將數據采集到處理平臺,然後運行算法計算,之後將數據返回到生產環境中,走這樣的閉環。如今,螞蟻在數據流鏈路上做了很多事情,也建設了很多能力。對於數據流而言,如果源頭被汙染了,如果不能控制其汙染到下遊,那麽越往下修復成本就越大。
技術分享圖片
基於以上的數據質量治理思路,螞蟻金服做了很多有意思的東西,在數據平臺運行時會將整個體系監控起來,如果出現數據質量故障,就能夠及時進行修復。此外,從研發到生產的各個環節,螞蟻都做了大量的工作,這是因為基於平臺進行數據研發的同學很多,需要盡量降低使用門檻。對於全數據流而言,主要建設了四大能力,包括感知能力、識別能力、智愈能力和運營能力。平臺需要能夠感知發布任務的故障問題以及數據質量問題,此外,平臺需要能夠識別出潛在風險,因為需要非常及時地了解被破壞的數據。當風險被識別出來之後,就需要智愈能力,之所以使用“智”,是因為原本數據處理任務往往是離線的,可能從淩晨開始到早上8點鐘左右屬於數據生產高峰,在這段時間裏會有人員參與質量保障任務。而智愈能力就希望通過AI算法來配合數據處理工作,使得感知能力疊加算法能力,能夠對於數據感染進行自愈。最後是運營能力,數據質量不會被展現在前臺,如果數據質量足夠好,完全可以實現無感知,使用者不用再擔心數據能不能用,也不會出現敢不敢用的疑惑,因此數據質量對於運營而言也非常重要。其實,數據質量問題既不僅屬於研發也不僅屬於業務,而是需要全員參與,共同來解決,這就是數據治理的思路。

螞蟻數據質量治理架構

如下圖所示的是螞蟻金服的數據質量治理架構體系。在系統層,按照上述所談到的具體思路,研發階段主要集中在數據測試、發布管控以及變更管理等方面的建設,這裏著重提及變更問題,數據的變更不僅僅設計到系統層的變更管理,也會涉及到在線系統的相互打通。如今,在線數據源的變更,也會使得數據運營發生變更,更可能會導致數據運營的數據質量問題。在線研發部分為數據運營系統提供了一些相關的接口,能夠通知使用者線上的哪些變更會影響到數據運營。對於發布管控能力而言,螞蟻投入了大量精力進行研發。目前在螞蟻已經沒有專職負責數據測試的同學,基本上全部都是全棧工程師,所以對於研發而言可能管控不是非常強,但卻實現了強大的發布管控能力,將與經驗、規範、性能以及質量相關的檢測全部在這部分執行。
技術分享圖片
在生產階段,則主要側重於質量監控、應急演練以及質量治理這三個系統能力。質量監控告警系統能力在大部分的數據系統架構中應該都有,其功能類似於汽車的剎車功能,因此肯定是存在的。而螞蟻卻做了一件很有意思的事情——數據攻防演練,工程師會人為創造故障,然後測試系統能否在短時間內發現故障並進行有效修復,這部分也是目前螞蟻在重點進行建設的能力。在質量治理部分,會根據不同應用的級別,發布到生產環境之後進行定期巡檢,分析是否會影響數據質量。總之,對於數據質量架構體系的系統層而言,不僅原數據非常重要,如今更是結合機器學習來自動配置一些相關策略。

數據質量治理方案

如下圖所示的是螞蟻金服在實踐中的事前、事中、事後的數據質量質量方案。整體而言,事前包括需求、研發、和預發三個階段,而如今螞蟻在事前可以做到的可管控、可仿真、可灰度。在事中,監控問題是重點建設的,出現問題不可怕,但是需要實現自主發現問題。而為了使得防禦能力更強,螞蟻實現了主動的攻擊演練,而正是通過攻防演練,幫助螞蟻發現了自身很多薄弱的地方。除此之外,還在事中提供了強大的應急能力,某些事件將會觸發應急預案,在這部分,保證數據質量其實就是把不確定的數據風險變成確定的東西。在事後,數據質量也非常重要,事後需要通過有效的指標和管控手段來進行審計和度量,以此發現整個鏈路上不完善的地方並持續完善。
技術分享圖片
數據質量治理案例

最後為大家分享螞蟻金服在數據質量治理方面的兩個案例:

案例1:在螞蟻數據治理架構體系下的發布環節,實現了一個發布強管控的流程。任何腳本在提交時都需要經過檢測,然後發布到線上,並再進行一次檢測。
案例2:數據治理涉及到整個鏈路,而針對不同鏈路上的數據版本,數據采集主要是將數據從一端搬運到另一端,不存在加工的過程,此時可以人為註入一些故障,分析數據質量治理體系能否發現問題並作出修改,因此這就產生了“攻”與“防”雙方。數據加工處理又另外一套體系結構,其涉及邏輯的加工,更多地需要考慮註入怎樣的故障,需要面臨什麽。如今,在螞蟻真正落地數據質量治理體系的時候,在攻防演練環節投入了大量精力。
點擊閱讀更多,查看更多詳情

螞蟻金服數據質量治理架構與實踐