1. 程式人生 > 其它 >企業資料治理落地和同行面試基礎

企業資料治理落地和同行面試基礎

資料治理概況

**本人部落格網站 **IT小神 www.itxiaoshen.com

資料治理背景

​ 企業資料治理現狀普遍存在缺乏統一的資料檢視、安全的資料環境、資料價值管理體系,同時也容易形成資料孤島,出現數據質量低下常見現象;資料治理不是一蹴而就的而是一項繁雜、長期需要工匠精神和鍥而不捨的工作,沒有一針頂破天的訣竅,也沒有立竿見影的途徑。只有將資料治理變成一種常態化機制,形成一種習慣、一種文化、持之以恆、不忘初心、不懈努力,才能達到預期目標。

​ 廣義上講,資料治理是對資料的全生命週期進行管理,包含資料採集、清洗、轉換等傳統資料整合和儲存環節的工作、同時還包含資料資產目錄、資料標準、質量、安全、資料開發、資料價值、資料服務與應用等,整個資料生命期而開展開的業務、技術和管理活動都屬於資料治理範疇。資料治理專注於將資料作為企業資料資產進行應用和管理的一套管理機制,能夠消除資料的不一致性,建立規範的資料應用標準,提高資料質量,實現資料內外部共享,並能夠將資料作為企業或組織的寶貴資產應用於業務、管理、戰略決策中,發揮資料資產價值。資料治理的發展是伴隨著不同行業對資料資源資產化、資料確權與合規、資料價值創造與共享、隱私保護的認識、研究和實踐的一個演進過程,目前,隨著資料治理理論體系的逐步完善,技術方法和工具的日趨成熟,資料治理被越來越多的企業學習瞭解和實際應用。

​ 依據國家關於加強數字化改革對資料開發利用數字化轉型的企業推進落實資料治理;資料治理正在逐步形成為業界的共識,資料治理涵蓋資料發現可用、資料及時穩定產出、資料質量保障、資料安全合規、資料生產的經濟性,根據所處在資料治理的階段不同,資料治理關注的核心需求也存在差異,資料治理管理過程最簡單最通俗的就是利用組織、制度、流程和工具將信安系統的資料轉換為有用的資訊的過程。

資料治理目標

​ 首先要清楚不是為了資料治理而進行資料治理,分別從資料治理業務目標和管理目標來賦能的企業價值。

​ 資料治理的業務目標在保障資料安全的前提下,明確資料指標和資料應用,依託於企業資料治理可以為企業的應用決策提供全方位的支撐,實現業務賦能以及提升企業資料的價值。

​ 資料治理的管理目標是提高資料的質量(準確性、及時性、完整性、唯一性、一致性,有效性),確保資料的安全性(保密性、完整性及可用性),提供安全保障,滿足風險控制和國家監管機構的監管要求,實現資料資源在企業系統的共享,推進資料資源的整合、服務和共享,從而企業系統的資訊化管理水平,為充分發揮資料資產核心價值提供強有力的基礎支撐。

明確企業資料治理範圍

​ 企業圍繞著自身資料不僅限於內部管理資料、業務資料、使用者資料、研發技術和專利資料等開展資料治理工作,可通過企業資料調研入手。

資料治理落地實施和同行面試基礎

資料治理整體流程

​ 資料治理框架從原則、範圍、實施與評估並層層深入層層展開;通過資料治理實施技術工具,可以讓資料質量變得更好,發掘資料資產的商業價值,資料治理是一個管理體系構建過程,分別從組織、制度、流程、工具四個維度協調展開。

組織維度建設

​ 建立合適的資料治理組織是企業資料治理的關鍵。資料治理的組織建設一般包括組織架構設計、部門職責、人員編制、崗位職責及能力要求、績效管理等內容。資料治理是一項需要企業通力協作的工作,而有效的組織架構是企業資料治理能夠成功的有力保障。為達到資料戰略目標,非常有必要建立體系化的組織架構,明確職責分工,建立資料組織是保障資料治理能夠長期有效的重要手段之一,資料組織都是可以跨職責的,組織的職能和分類如下:

  • 資料治理委員會,在公司內部擁有資料的最高決策權,代表了企業的高層視角。
  • 資料管理指導委員會,為資料委員會提供支援,針對一些具體資料管理措施起草相關政策和標準,提供委員會評審和批准。
  • 資料管理制度團隊,在某個業務領域內,協助完成資料制度管理的資料管理專員小組,資料管理制度團隊來著不同的部門和跨業務領域的資料專家。

制度維度建設

​ 企業的資料治理必須要有相關制度,否則無法可依,再好的技術工具也沒有用。因此建立完善的資料治理制度很重要。

​ 保障組織架構正常運轉和資料治理各項工作的有序實施,需要建立一套涵蓋不同管理粒度、不同適用物件,異覆蓋資料治理過程的管理制度體系,從“法律”層面保障資料治理工作有據、可行、可控。資料治理制度框架分為政策、制度、細則、手冊4個梯次,企業的資料治理制度通常根據企業的IT制度的總體框架和指導原則制定,通常包含資料質量管理、資料標準管理、資料安全管理、資料績效管理等制度,以及元資料管理、主資料管理、交易資料管理、資料指標管理等辦法及若干指導手冊。

流程維度建設

​ 制定資料治理的流程框架也是資料治理的重要工作;廣義上講,資料治理流程是對資料的全生命週期進行管理,包含資料採集、儲存、處理、使用、共享、銷燬等,同時還包含資料資產目錄、元資料管理、主資料管理、資料指標管理、資料標準、資料質量、資料安全、資料開發、資料價值、資料服務與應用等,整個資料生命期而開展開的業務、技術和管理活動所遵循的活動步驟進行治理。

工具維度建設

功能架構

​ 資料治理需要多種資料治理工具軟體的支撐,提供資料採集、治理、建模、分析,應用,使資料對內優化管理賦能業務,對外可以資料合作價值釋放,成為企業資料資產管理和服務中樞。資料治理工作從輔助資料接入整合能力、資料共享應用能力、資料綜合管理能力、基礎元件支撐能力四方面全面建設資料能力和培育能力體系,實現資料接入、儲存計算、資料分析、資料服務、資料資產管理、運營管理等功能,以多型別大資料量的匯聚為基礎,以統一模型為標準,為前端應用提供靈活的統一資料服務。資料治理需要多種資料治理工具軟體的支撐,包括以主資料為核心的必要軟體、以資料資產目錄為核心的資料資源管理工具、以元資料和資料模型為核心的資料中臺,此外還有時序資料、資料交換等。這些工具互有側重,需要根據實際需求予以剪裁。

​ “無治理、不分析”,沒有高質量的資料,就不會有可信的AI。資料治理是人工智慧基礎,能夠為人工智慧提供高質量的資料輸入。而人工智慧是一種技術,它不僅僅是在資料應用端產生作用,在資料的管理端同樣需要人工智慧,有了人工智慧加持,資料治理將變得更加高效和智慧,結合人工智慧技術在資料採集、資料建模、元資料管理、主資料管理、資料標準、資料質量及資料安全等領域提供更為深入高效的應用。

​ 資料治理平臺用於落實資料管理體系,實現資料管理自動化,提高資料管理效率,確保資料質量、實現安全資料共享,資料治理工具總體功能架構包含工作流管理、資料架構工具、資料發現、資料標準管理、資料模型管理、資料指標管理工具、主資料管理、元資料管理、資料質量管理、資料地圖、資料血緣、資料安全、資料共享與釋出、資料生命週期。

工作流管理

  • 提供資料批量全量採集、批量增量採集、實時採集功能。
  • 提供資料流式加工處理、批量加工處理功能。
  • 提供資料加工專案管理、加工任務排程、任務監控、任務運維、告警通知等功能。

資料發現

通過部署資料發現系統,支援串接和旁路的流量網路監測發現梳理企業資料分佈,包括以下內容:

  • 結構化資料發現:資料庫內容進行表單的自動發現。
  • 半結構化和非結構化資料發現:檔案系統的半結構化和非結構化資料自動發現。

資料標準管理

​ 整理業務規則,統一資料定義;提供標準模型及資料標準的建立、釋出、修改、應用、登出、查詢等功能。

​ 建立規範的資料標準,消除跨系統的非一致性問題,包括標準定義、標準查詢、標準釋出等功能,資料標準是實現資料標準化、規範化的前提,是保證資料質量的必要條件。資料標準一般分為元資料標準、主資料標準、交易資料標準、資料指標標準、資料分類標準、資料編碼標準、資料整合標準等內容。資料標準管理是規範資料標準的內容、程式和方法的活動,分為標準制定、標準實施和控制、標準修訂等。

​ 資料標準建設提供全面完整的資料標準管理流程及辦法,用於決定和建立單一、準確、權威的事實來源,實現臺數據的完整性、有效性、一致性、規範性、準確性、開放性和共享性管理,併為資料質量檢查、資料安全管理提供標準依據。預置資料標準的規則。

  • 標準管理功能要求如下:
    • 維度統一:包括維度名稱,別名,描述,資料型別,呈現格式等標準。
    • 度量統一:包括度量名稱,別名,描述,資料型別,呈現格式等標準。
    • 指標統一:包括指標名稱,別名,描述,資料型別,呈現格式等標準。
    • 邏輯表統一:包括邏輯表的表名稱,別名,描述及表字段名稱,別名,業務含義的定義標準規範。
    • 物理表統一:包括物理表的表名稱,別名,描述及表字段的資料型別,資料長度,業務含義的定義標準規範。
  • 資料標準管理工具
    • 標準生成:支援按照業務領域、業務主題、資訊分類、資訊項等生成標準細則;
    • 標準對映:支援將制定的標準與實際資料進行關聯對映,即實現資料標準的落地執行,維護標準與元資料之間的落地對映關係,包括元資料與資料標準的對映、元資料與資料質量的對映,以及資料標準和資料質量的對映,能提供線上的手工對映配置功能,並能對對映結果做頁面展示;
    • 對映查詢:具備查詢標準項與元資料之間的落地情況,並提供下載功能;
    • 維護標準:具備對標準狀態進行管理;
    • 標準匯出:具備按照當前系統中釋出的最新標準或者選擇版本來下載標準資訊;

資料模型管理

確認影響業務的關鍵資料指標,完整表達業務主體的資料相關性,良好的規則模型管理是企業資料資產管理成功的重要因素。

主資料管理

  • 提供主資料建立、釋出、分發、變更、登出等管理功能。

  • 通過規範主資料獲取、管理與應用,最優化管理和使用企業黃金資料。主資料申請、主資料釋出、主資料分發等功能。

  • 主資料治理平臺是企業資料規劃、資料標準落地的載體,實現資料治理統一標準、統一規則的支撐;主資料治理平臺是有效實施主資料、元資料、資料指標管理,提供規範統一的主資料服務的平臺;主資料治理平臺是實現資料從產生到應用,分層協同、全面治理的核心。主資料管理對需要共享的資料建立統一檢視和集中管理,為各業務系統資料呼叫提供黃金資料。

  • 主資料管理工具是主資料全生命週期管理的平臺,也是主資料標準、運維體系落地的重要保障。從主資料標準管理、主資料程式碼管理、主資料清洗校驗、主資料生命週期管理、主資料質量管理、主資料應用評價、主資料全景圖,主資料應用需求管理、業務需求等。

元資料管理

  • 提供元模型的建立、釋出、修改、刪除、查詢等管理功能以及元資料同步、匯入、匯出、修改、釋出、刪除、查詢等管理功能。

  • 自動採集元資料,生成資料影響力分析、血緣圖譜和全鏈路分析,為資料管理提供關鍵驅動力。包括元資料採集、血緣分析、影響分析等功能。

  • 元資料管理內建豐富的採集介面卡,端到端的自動化採集,一鍵元資料分析,快速理清資料資源,瞭解資料來龍去脈,構建資料地圖,為資料標準建設和資料質量提供基礎支撐。

    • 技術元資料:庫表結構、欄位約束、資料模型、ETL程式、SQL程式等。
    • 業務元資料:業務指標、業務程式碼、業務術語等。
    • 管理元資料:資料所有者、資料質量定責、資料安全等級等。

資料質量管理

  • 提供資料質量規則管理、資料稽核任務管理和資料質量報告管理等功能。
  • 獲得乾淨、結構清晰的資料,提升資料價值含量。包括質量規則定義、質量檢查、質量報告等功能,資料質量是指資料的適用性,描述資料對業務和管理的滿意度。資料質量主要指資料的準確性、及時性、完整性、唯一性、一致性,有效性六個方面。資料質量管理是對資料的分析、監控、評估和改進的過程。包括規劃和實施質量管理技術,以測量、評估和提高資料在組織內的適用性,提高資料對業務和管理的滿足度。重點關注資料質量需求、資料質量檢查、資料質量分析和資料質量提升的實現能力。
  • 資料質量管理以資料標準為資料檢核依據,以元資料為資料檢核物件,通過嚮導化、視覺化等簡易操作手段,將質量評估、質量檢核、質量整改與質量報告等工作環節進行流程整合,形成完整的資料質量管理閉環。
  • 針對資料接入、儲存、共享、維護、分發共享、消亡等整個生命週期的每個階段裡可能引發的各類資料質量問題,具備識別、度量、監控、預警等一系列管理功能,使得資料質量獲得進一步提高。

資料安全管理

  • 資料安全管理不僅限於資料分類分級、基於RABC屬性級別的資料許可權管理、敏感資料保護、合規要求,對資料分類分級進行自動化識別。

    • 針對結構化資料:能夠根據輸入的資料識別判斷規則配置,對資料進行自動化分類,根據國家、地方、行業積累分級規則和依據初步定級。
    • 針對非結構化資料:能夠根據輸入的規則配置快速識別系統資料、使用者資料、業務資料、應用資料,對資料進行自動化分類,根據國家、地方、行業積累分級規則和依據初步定級。
  • 從國家的法規來評估系統的安全風險,從而制定相應制度和策略;從技術層面上講,保證資料在採集、傳輸、儲存的安全性,比如在傳輸過程中使用SSL協議加密或者在資料儲存過程中使用了相應的訪問控制策略等等;應用層面上,我們需要對訪問的資料加以控制,比如可以設計基於RBAC的訪問控制模型,那資源就只能被擁有某個許可權的角色對應的使用者才能訪問;整個安全上我們希望通過制度、流程、手段、工具、產品的方式做到“事前可管、事中可控、事後可查"。

  • 通過感知危險、防範洩露、管理許可權、資料容災,確保資料資產的安全性。資料安全管理是為了確保資料隱私和機密性得到維護,資料不被破壞,資料被適當訪問。通過採用各種技術和管理措施,保證資料的機密性、完整性和可用性。資料安全體系框架通過3個維度構建而成,包括政策法規、技術層面和安全組織人員。資料安全治理體系框架在符合政策法規及標準規範的同時,需要在技術上實現對資料的實時監管,並配合經過規範培訓的安全組織人員,構成了資料安全治理整體架構的建設。資料安全治理能力建設並非單一產品或平臺的構建,而是建設一個覆蓋資料全部生命週期和使用場景的資料安全體系,需要從決策到技術,從制度到工具,從組織架構到安全技術通盤考慮。

  • 資料安全管理貫穿於資料治理全過程,提供對隱私資料的加密、脫敏、模糊化處理、資料庫授權監控等多種資料安全管理措施,全方位保障資料的安全運作。

資料資產地圖

  • 資料資產地圖可以明確知道有哪些資料資產、資料資產分佈在哪、資料資產的質量情況、資料資產的使用情況等。
  • 有效構建並管理整體資料資產內容,快速查詢不同資料儲存位置、資料類別、資料級別,並能快速進行搜尋展示。
  • 提供事實表、維度表、彙總表等資料模型建立、指標設計、指標洞察分析等功能;提供資料視覺化設計開發功能;有效構建並管理整體資料資產內容,快速查詢不同資料儲存位置、資料類別、資料級別,並能快速進行搜尋展示。
  • 資料資產地圖可以幫助我們更好的支撐各種資料的應用,豐富的服務介面拓展,支撐資料資產的多渠道應用,如資料共享、決策支援等,最終實現資料資產價值最大化。
  • 通過對元資料的加工,可以形成資料資產地圖等應用。資料資產地圖一般用於在巨集觀層面組織資訊,以全域性視角對資訊進行歸併、整理,展現資料量、資料變化情況、資料儲存情況、整體資料質量等資訊,為資料管理部門和決策者提供參考。

資料血緣

​ 提供資料血緣分析、資料血緣展示、資料血緣查詢等功能。

資料應用

  • 建立資料倉庫包括關係型資料庫數倉和分散式數倉。
  • 建立計算引擎包括離線計算和流計算兩部分組成,計算引擎是共享層平臺提供的基礎資料處理分析能力。
  • 資料預處理完成匯入的源資料資料校驗、清洗和脫敏的過程,解決重複,不完整、錯誤和噪聲的源資料問題,通過改進資料的質量,提高後續資料分析的效率、精度和效能。
  • 建模分析通過資料處理分析,實現對匯入的資料進行預處理和建模分析等功能,具備輸出通用資料計算結果和基礎模型展現等功能。
  • 資料治理應用行業如金融、醫療、政務、運營商、

資料共享交換

  • 提供資料釋出介面設計、資料共享交換功能。
  • 資料交換服務將若干個業務子系統之間進行資料或者文字的傳輸和共享,提高資訊資源的利用率,集資料採集、處理分發、交換傳輸於一體,輕鬆玩轉企業級資料交換作業。
  • 資料共享平臺如支援通過檔案介面、查詢介面等方式,共享資料給各應用系統。

資料價值管理

​ 資料價值可以圍繞成本和應用價值兩方面來展開,強調資料生產經濟性比如成本包括了你採集、儲存、傳輸、運維方面的成本,這是可以計算出來,而它的價值方面可以通過他使用的分類、頻次、物件和產生的收益效果來評估。

全生命週期管理

  • 提供資料生命週期管理、資料下線、資料銷燬、任務管理等功能。
  • 資料生命週期記錄資料從建立和初始儲存,到它過時被刪除的整個流動過程,對資料進行近線歸檔、離線歸檔、銷燬和全生命週期監控。
  • 包括資料歸檔、資料銷燬等功能,搭建雲數智一體化資料平臺,滿足前臺應用準確性、快速性和多樣性的資料需求,縮短研發週期、降低技術成本,將資料中心逐步由成本中心向資產中心轉變,提升資料價值,實現五個打通:
    • 橫向打通:破除部門壁壘,打通專業。橫向跨專業間的分析挖掘融通;
    • 縱向打通:內部多層級資料打通,形成統一資源目錄。上下級資料共享交換;
    • 內外打通:消除內外資料的鴻溝,實現內外部資料的關聯分析;
    • 管理打通:建立企業標準,實現統一管理統計口徑;
    • 服務打通:資料中臺統一對外提供資料服務和應用構建,與業務系統和資料應用充分協同。
  • 面向資料全生命週期,提供的一站式資料規劃、整合、開發、治理、服務、應用等產品。資料平臺能力框架:5個維度(採、聚、理、用、保),7個功能層次。