大資料技術體系1(清華:大資料技術體系)
阿新 • • 發佈:2018-11-11
【1】採集與整合
【2】儲存與管理
【3】分析與挖掘
【4】視覺化
【5】計算範型
【6】隱私與安全
01資料質量-無法迴避的挑戰
傳統資料質量僅通過EFL方式執行,即抽取、轉換、載入,包括解析、模式分析等。
沒有完全覆蓋資料質量的基本性質
挑戰
分散式環境中,如何保證全域性資料的一致性、精確性、完整性
流體環境中,如何保證時效性(e.g 時序一致性)
在大資料中,保證絕對的資料質量並不現實
高維、異質、模糊、海量、多變
02儲存的老問題、新挑戰
一些轉變:
Hash大於掃描
單副本轉向多副本
單階段轉向多階段
壓縮不再解壓
03大資料分析的特點
傳統BI | 資料科學&大資料分析 | |
焦點 | 發生了什麼 | 將要發生什麼 |
資料 | 小規模、乾淨資料,簡單的統計模型 | 大規模、多樣化、無關聯資料,語義模糊、複雜的預測模型 |
支援 | 因果分析:事件及其將要發生的原因 | 關聯分析:利用多個若關聯資料來源發現有潛在價值的結果 |
主要問題
監控動態流資料,跟蹤變化趨勢;而非僅僅考慮靜態資料
和資料科學家一起工作,而非僅僅靠資料工程師
將大資料分析工具整合到核心業務和運營環節
04視覺化的挑戰
將大規模資料中蘊含的資訊、知識與規律,利用計算機軟體更好的揭示出來
通過人來的互動和反饋,觸發新一輪的知識發現過程,是大資料分析的關鍵。因此,視覺化是人類實現資料洞察的關鍵的互動通道。在大資料時代起到重要的技術支撐作用。
05計算範型
資料找程式 -> 程式找資料
Scale Up -> Scale Out
傳統計算 -> 雲端計算
Virtual Machine & Multi Tenants
CPU -> HPU(Crowdsourcing)