大資料治理--未完待續
阿新 • • 發佈:2021-10-13
大資料治理
第2章大資料治理的框架
- 大資料治理框架由三部分組成 大資料型別、資訊治理準則、產業和 功能場景
- 大資料型別:
- 大資料治理需要高度聚焦於資料本省。我們將大資料分為五種:Web和社交媒體資料、機器對機器的資料、大體量交易資料、生物計量學資料和人工生成的資料。
- 資訊治理原則:
- 傳統的資訊治理原則,同樣適合於大資料,7個相關準則包括組織、元資料、隱私、資料質量、業務流程整合、主資料整合和資訊生命週期管理。
- 組織:將大資料納入資訊治理總體框架,包含憲章、組織結構、角色和責任
- 元資料:見大資料與企業的元資料庫進行整合,從Haddop中將技術元資料引入元資料庫。
- 管理資料血統,並在大資料環境中對分析施加影響
- 隱私:識別敏感資料,並制定有關敏感資料的可接受使用的政策。
- 資料質量:包括測量、提升和論證質量及整合組織資料的方法,,資料質量管理需要實時化,解決結構化和非結構化資料相關的問題。
- 業務流程整合:識別需要大資料的核心業務流程,因而必須識別支援大資料治理的關鍵政策
- 主資料整合:大資料治理需要制定有關將大資料整合到主資料管理環境的政策。
- 資訊生命週期管理:決定何種資料應保留在運營分析系統中,何種資料要予以存檔,何種資料要予以刪除。
- 產業與功能
- 大資料分析是受用例驅動的,用例的具體情況因產業功能而異。
- 醫療產業:
- 場景1:由於美國醫療保險和可攜帶和可歸責法等隱私保護規制的存在,健康計劃的線上應用受到某種程度的限制
- 解決方案:情緒分析
- 大資料型別:Web和社交媒體(健康計劃)
- 準則:隱私
- 如果有人在Twitter上發帖投訴,健康計劃可能會以簡短回帖響應,然後進行線下交流。
- 場景2:保留原始資料和修正資料
- 解決方案:醫療監護
- 大資料型別M2M(醫療機構)
- 、準則;資料質量、資訊生命週期管理、隱私
- 場景3:
- 解決方案:投訴分析
- 大資料型別:大體量交易資料(健康計劃)
- 準則:資料質量
- 場景4
- 解決方案:員工論證
- 大資料型別:生物計量學資料(醫療機構)
- 準則:隱私
- 場景5:
- 解決方案:基於電子病歷的預測建模
- 大資料型別:人工生成的資料(醫療機構)
- 準則:資料質量
- 場景5:公共事業
- 解決方案:只能儀表
- 大資料型別:M2M資料
- 準則:隱私、西悉尼生命週期管理
- 零售業:場景1 將主資料應用於顧客、產品、僱員和商店選址
- 解決方案:Facebook忠誠度應用
- 大資料型別:Web和社交媒體資料
- 準則:隱私、主資料整合
- 零售業,場景2 RFID技術,追蹤供應鏈中商品的運動狀況,其運動軌跡包括從製造生到分銷中心和商店的全部過程,如果RFID標籤與個人身份資訊結合,就會產生隱私問題。
- 解決方案:RFID標籤
- 大資料型別:M2M資料
- 準則:隱私
- 零售場景3:零售商使用人臉識別軟體,分析顧客年齡和性別,並向其傳送精準的廣告。
- 解決方案:基於人臉識別和社交媒體的個性化訊息傳送
- 大資料型別:Web和社交媒體資料、生物計量學資料
- 準則:隱私、業務流程整合
- 電信業,場景1 將客流分析場景外包給國外
- 解決方案:客戶流失分析
- 大資料型別:Web和社交媒體資料,大體量交易資料
- 準則:營私、主資料整合、資料質量
- 電信場景2:分享使用者地理位置資料造成的風險
- 解決方案:位置服務
- 大資料型別:M2M資料
- 準則:隱私
- 大資料治理計劃需要權衡新收入源潛在的收益和可能涉及的隱私風險。
- 保險業,場景1:許多保險公司使用社交媒體調查索賠,但是大多數規制部門依舊不允許承保人在承保過程中使用社交媒體制定保單費率
- 解決方案:索賠調查,承保
- 大資料型別:Web和社交媒體資料
- 準則:隱私、業務流程整合
- 保險業 場景2:車載感測器採集投保人駕駛行為的汽車通訊資料,資料量大,所以必須制定資料保留期
- 解決方案:車載通訊技術
- 大資料型別M2M資料
- 準則:資訊生命週期管理
- 保險業 場景3 缺乏參考資料的集中化資料庫的情況下,很難對保單定價並處理索賠,因為資料在精算師和保險公司手中。
- 解決方案:索賠處理
- 大資料型別:大體量交易資料
- 準則:主資料整合、業務流程整合
- 保險業:基因檢測,帶來隱私問題
- 解決方案:核保
- 大資料型別:生物計量學資料
- 準則:隱私
- 石油和天然氣業 場景1:
- 解決方案:地址空間和地震分析
- 大資料型別:M2M資料
- 準則:元資料
- 石油和天然氣業,場景2:
- 解決方案:鑽探裝置和環境監測
- 大資料型別:M2M資料
- 準則:資訊生命週期管理
- 消費品行業:
- 解決方案:需求資訊庫(DSR)
- 大資料型別:大體量交易資料
- 準則:業務流程整合、主資料管理、資料質量
- 銀行,場景1 風險管理部門需要基於最新財務資訊來更新客戶層級
- 解決方案:風險管理
- 大資料型別:Web和社交媒體(Web內容)資料
- 準則:主資料整合
- 銀行 場景2
- 解決方案:信用、收款
- 大資料型別;Web和社交媒體資料
- 準則:隱私
- 鐵路業,場景:
- 解決方案:定期檢修
- 大資料型別:M2M資料
- 準則:資料質量、資訊生命週期管理
- 教育業
- 解決方案:縱向資料倉庫
- 大資料型別:Web和社交媒體資料
- 準則:隱私
- 、客戶服務功能:
- 解決方案:呼叫監視和對呼叫中心克服人員記錄的分析
- 大資料型別:人工生成的資料
- 準則:主資料整合、隱私
- 資訊科技功能:IT部門藉助於大戶資料分析應用日誌,獲得可提高系統績效的洞察力,由於應用服務商的日誌檔案的使用格式不同,在得到有效使用之前,日誌檔案首先要被標準化。
- 解決方案:日誌分析
- 大資料型別:M2M資料
- 準則:元資料
- 市場營銷功能
- 解決方案:情緒分析
- 大資料型別:Web和社交媒體資料
- 準則:主資料整合、資料質量、隱私
- 生產運營功能
- 解決方案:運營管理
- 大資料型別:M2M資料
- 準則:隱私
- 人力資源功能
- 解決方案:招聘篩選
- 大資料型別:Web和社交媒體資料
- 準則:隱私
- 資訊保安功能:安全資訊與事件管理SIEM工具,從企業系統、應用、網元和安全裝置中聚合日誌資料,對聚合資料進行關聯分析,判斷安全事故是否會發生
- 解決方案:網路分析
- 大資料類習慣:M2M資料
- 準則:元資料
- IBM資訊治理委員會的成熟度模型
- 11個資訊治理成熟度指標
- 業務成果:地表西悉尼治理計劃的目標和目的
- 組織結構和認知:指業務部門和IT部門間的相互責任,以及對治理不同管理層次中資料的信託責任的認識。
- 管理人員。指在保護資料監護,實現資產增值、風險消解和組織控制的質量控制準則。
- 資料風險管理。據以識別、保留、量化、規避、接受、消解和轉嫁風險的方法論。
- 政策。期望得到落實的組織行為的書面表達
- 資料質量管理。指測量、提高和保證剷平資料、測試資料和歸檔資料的質量和整合性的方法。
- 資訊生命週期管理。有關資訊採集、使用、保留和刪除的系統化、基於策略的方法。
- 資訊保安與隱私。組織用於消解風險和保護資料資產的策略、實踐和控制手段。
- 資料架構。結構化和非結構化資料系統及應用的架構式涉及,用於實現資料的可用性,並將資料分配給合適的使用者。
- 分類和元資料。指用於建立常見的語義定義、IT術語、資料模型和資料庫的方法和工具。
- 審計資訊日誌和報告。指監測和測量資料價值、風險和資訊治理有效的組織流程。
- 成熟度的示例問題
- 業務成功
- 是否已經確定了大資料治理計劃的關鍵業務關聯方
- 是否對大資料治理可能帶來的財務收益進行了量化
- 組織結構和認識
- 是否為需要治理的大資料分類規劃了優先順序
- 是否已擴充了資訊治理章程,使其覆蓋了大資料
- 關鍵角色的職位說明中,是否包含大資料治理,如配備首席資料官和資訊治理官
- 組織是否配備了資料科學加,如已經配備,那麼他們是否代表資訊治理委員會
- 資訊治理委員會是否已經解決了所有的大資料問題
- 西悉尼治理委員會是否已經解決了大資料和主資料(如將社交媒體資料整合到客戶主資料之中)的融合問題
- 管理人員
- 如何解決大資料的管理問題
- 對現有管理人員的職位描述加以擴充套件(例如,客戶資料管理人員需要負責社交媒體方面的工作)
- 指派另外的大資料管理人員(如,社交媒體管理人員負責處理該領域特有的隱私問題)
- 資料管理人員是否要負責從法律、市場營銷和其他部門收集有關可接受的大資料使用過的意見
- 是否已經建立了責任分配舉證(RACI)以定義針對大資料關鍵屬性的角色和責任
- 資料管理角色是否由人力資源部門加以規範
- 資料風險管理
- 風險管理是否是大資料治理中的關鍵組成部分
- 是否在大資料治理和風險管理之間建立了聯絡
- 政策
- 是否已經 歸檔了一組大資料治理政策
- 是否已將政策轉化成一組運營控制措施
- 是否在利用治理、風險和合規性(GRC)框架,對運營控制措施的遵守情況進行監控
- 大資料平臺支援這些政策嗎
- 政策與業務流程一致嗎
- 資料質量管理
- 對於與大資料相關的質量問題(資料價值不該或不顯著),是否達成了一致意見
- 對糟糕的大資料質量的財務影響,是否達成了一致意見
- 在組織中,資料質量政策是否同時應用於實時技術(流式傳輸)和靜態技術(Haddop)
- 糟糕的主資料質量如何影響大資料
- 是否使用非結構化資料提高人口稀疏資料的質量,增加資料維度
- 是否考慮過與機器間通訊相關的資料質量問題(例如,在某些讀取角度和高溼度環境中,RFID讀書可能易於出錯)
- 分析能力容忍質量糟糕的資料或者質量參差不齊的資料嗎
- 如何發現干擾資料
- 設定了限於解決不同層面可信度問題的資料型別嗎
- 大資料生命週期管理
- 大資料的儲存量是多少,預計年增長率是多少
- 大資料的儲存陳哥不能是多少,預計年增長率是多少
- 是否理解治理大資料保留的法規要求
- 是否理解推動大資料保留的業務需求
- 是否擴充套件了保留計劃,將大資料包含其中
- 是否計劃中包含按國家、州的要求治理大資料保留測法律引擎
- 是否建立了從保留計劃到大資料物理儲存庫的指導方針
- 是否制定了流程,依法保留仍在訴訟期的大資料
- 是否制定了流程,根據法律和業務要求合法處理不再需要的大資料
- 是否會在Haddoop或者其他工具中壓縮大資料
- 是否會存檔大資料,一邊降低it成本,提高應用績效
- 資訊保安和隱私
- 首席資訊保安官是否是大資料治理計劃的關鍵支持者
- 首席隱私官是否是大資料治理計劃的關鍵支持者
- 是否理解各國,省制定的影響各類大資料的隱私法規
- 是否理解使用Facebook,Twitter和其他型別社交媒體資料的條款
- 是否制定了有關客戶社交媒體資料可接受使用的指南
- 是否定義了有關客戶地理位置資料可接受使用的策略
- 是否與人力資源部門合作,建立了有關員工和應聘者的社交媒體與地理位置資料使用的政策
- 是否對生產系統中的敏感大資料進行了加密
- 是否在開發、商業智慧和測試環境中,使用未遮蔽的敏感大資料,需要使用加密技術嗎
- 資料架構
- Hadoop、NoSQL以及與當前架構相關的其他新興大資料技術的共存戰略是怎樣的
- 是否確定了哪些應用程式應該轉入大資料基礎架構平臺
- 現代的ETL工具如何才能將資料匯入並匯出大資料基礎架構平臺
- 如何在大資料基礎架構平臺內利用資料壓縮和存檔技術
- 是否考慮過主資料對大資料的影響(也就是業務源資料)
- 是否考慮過參考資料(如醫保索賠資料)對大資料的影響
- 能處理動態和靜態大資料的質量嗎
- 業務詞庫包括了大資料有關的關鍵定義嗎
- 如何處理大資料的血統
- 在MapReduce中進行本機程式設計嗎,如果不掌握MapReduce技術,那使用更高階的程式設計正規化嗎
- 如何處理不同層面的資料可信度
- 使用機器學習嗎
- 大資料平臺支援高階文字分析能力嗎
- 分類和元資料
- 業務詞庫是否包含了與大資料相關的業務關鍵術語
- 企業是否指派資料管理人員來管理大資料的關鍵定義
- 如何處理大資料基礎架構平臺內的大資料血統
- 如何處理大資料基礎架構平臺內的大資料影響分析
- 是否會捕獲關鍵的運營元資料,以識別未載入大資料的場景
- 審計資訊日誌和報告
- 企業中是否有資料庫管理員、承包商和其他型別的第三方,能夠對地理位置資料、電話通話詳單、公共事業智慧儀表讀取和醫保索賠等敏感的大資料進行未加密的訪問
- 企業如何監測特權使用者對醫保索賠和通訊詳單等敏感大資料的訪問
- 通過大資料治理,提高運營實時性和錄客安全度