MaxCompute2.0助力眾安保險快速成長
原文地址:http://click.aliyun.com/m/43993/
2017雲棲大會阿裏雲大數據計算服務(MaxCompute)專場,眾安保險數據總監王超群帶來MaxCompute助力眾安保險方面的演講。本文主要從MaxCompute優勢開始談起,進而談及大數據能夠為公司運營帶來的好處,最後重點分析了眾安保險的數據平臺建設,包括任務調度、元數據和數據質量監控等。
以下是精彩內容整理:
眾安保險作為國內第一家互聯網公司,我們從創立之初計算平臺就使用MaxCompute。
為什麽會選擇MaxCompute?
成立之初我們也在自建平臺和MaxCompute上作出了選擇,我們主要從五方面考慮:健壯性、與應用系統交互、擴展性、強數據安全和低成本。
健壯性:7*24的服務能力、異常恢復時長;
與應用系統交互:數據源的獲取與數據輸出效率和成本;
擴展性:當數據成倍增長時,計算能力彈性;
數據安全:數據異常攻擊防護,提供多層沙箱防護及權限體系;
成本:自建成本和MaxCompute成本對比。
首先,2013年能夠提供完整能力的計算平臺並不是很多,MaxCompute孵化於阿裏金融的生產系統驗證後對外輸出,支持5000臺以上的計算能力,滿足我們對彈性和擴展性的要求;其次,我們對阿裏雲專業能力的信任,可以看到阿裏雲在國內的計算份額遙遙領先;最後,MaxCompute不僅僅是一個計算平臺,它還提供了分析和挖掘工具的能力支持,提供可用的IDE(DataWorks、Studio)開發工具,這會降低我們最初加工開發過程中的開發成本。
大數據能給公司運營帶來哪些顛覆?
雲計算和大數據整體生態鏈的發展如圖,國內雲計算年增長率超60%,AWS新增功能數可觀,雲計算正日益接近生活,從hadoop誕生以來,十年間產品豐富性大大增加,生態圈越來越大。
大數據不僅僅在於它的工具、平臺和生態圈,更在於它能夠賦能於人、場景,通過賦能支持生態發展,阿裏每天都有上萬人在使用MaxCompute在工作,大數據是對人賦能創造的新職業,反過來從業者也會反饋大數據,豐富大數據的場景,在十年的發展中,人和資源的投入也在反饋結果,同時還有資本的良性回報繼續投入大數據行業,形成閉環。
眾安是一家以保險為核心的公司,我們提供跨生態的連接,與各個子行業進行跨生態合作,包括電商、3C、汽車等,這些產品打通了各個生態夥伴同時也會增加我們對用戶的接觸,通過與300多個生態夥伴的合作,我們積累了大量用戶數據及信息。最終,我們希望眾安既能服務這些生態,又能通過數據積累、客戶積累、品牌積累來做大做強眾安自己的開放平臺。
截至到2016年底,我們服務的用戶為4.92億,保單數72億,為中國互聯網的新生代提供了第一張保單。其中,30歲以下人群大約占比50%,說明眾安保險代表這新的生活理念方式,而且這群人群有著充足的資產生產能力,他們對保險的認可度和意識是更高的,他們是將來的消費主力。
眾安保險的數據平臺建設
每串數字後面都是公司全體員工努力的結果,那麽,基於MaxCompute數據平臺做了哪些事情呢?怎樣支撐業務快速發展?
數據平臺分為平臺工具、數據監控和數據服務。數據本身是有多源異構數據,數據價值體現在於它的流動性和開放性,只有把數據經過加工、質檢提供到用戶手中,才能產生價值。平臺工具包括MaxCompute、數據同步、任務調度和計算存儲管理;數據監控有預警系統、元數據、血緣關系和數據質量;數據服務包括數據門戶、自助取數和服務API。
任務調度系統
任務調度本質上是要完成數據加工工作流的狀態,數據加工是一個多鏈路的過程,如何保證數據順序的正確性,我們支持日、周、月等不同周期調度,支持分組優先級,支持小時任務,支持自定義時間調度,日任務量超1W。
任務調度是一個有向圖,每一個節點都可以看到來源數據是非常多的,紅色數據代表出錯狀態,藍色代表成功,綠色代表正在運行,×××是存在的狀態。不同任務加工來源於很多的數據源,就會給我們帶來困惑,如果信息出現錯誤,那麽到底是自身任務出錯還是上遊數據源結果引來的問題呢?那麽,怎麽讓開發更快的定位問題,減輕開發成本,提供統一口徑?我們通過元數據來解決。
元數據
數據包括打通數據和數據間關系,利於模型優化和異常定位,打通數據與人之間的關系,利於成本優化。數據關系包括數據字典信息、血緣信息、存儲和產出信息、表責任人信息和業務元數據信息,推動存儲計算優化來降低MaxCompute使用成本。
左圖為數據間的基本信息,還有數據產出信息、血緣關系;右圖展示表的來源,輸出會影響下一輪哪些表,獲取信息以後,我們會把數據和數據之間打通,人和數據之間打通。
存儲優化後成本下降了30%,通過存儲計算優化降低無效存儲,計算效率會提升。
數據質量監控
數據質量監控通過切片方式嵌入到任務自身執行狀態中,執行任務的自處理,自己判定自己的狀態,基於規則與模板驗證數據的準確性,只有Ok才會被下遊使用,這樣避免了數據汙染,自身暴露錯誤不依賴於下遊。它的特點是利用MaxCompute的統計項收集功能,規則是統計項規則,包含表和字段級別,模板為規則+周期+統計函數的整合,把事後監控變為事中監控,支持用戶自定義,覆蓋重點任務,覆蓋率30%。
數據服務與安全
在消費時,我們會去考慮哪些東西呢?數據是要開放和流通的,在開放和流通中我們還要小心什麽?數據泄露和安全都會導致公司的災難。
在技術上,我們基於ACL與角色管理,賦予不同等級,我們做了表和字段級別的權限等級控制,建立敏感信息掩碼、涉密信息的加密審批流程,開放與安全,基於技術控制和流程控制,各種角色需要數據。開放基礎是安全控制,開放關鍵在流程管理,我們在開放與安全間做平衡。
在數據平臺的建設中,要保持可用、易用、適用三個階段,需要經歷多次叠代升級系統。數據即服務,要滿足用戶不同的數據需求,數據是基礎設施,每家公司都面臨數據平臺的搭建和使用。
MaxCompute生態的豐富,資源與工具的共享,對挖掘算法的深入及支持都可強大到滿足我們的使用需求,我們可以有更多時間去接觸用戶,為用戶創造價值。MaxCompute成本也在逐步下降。未來,希望MaxCompute提供更多種模式支持,包括UDF\資源庫如IP庫,包括挖掘的python算法包、人工智能平臺支持。
識別以下二維碼,閱讀更多幹貨
MaxCompute2.0助力眾安保險快速成長