1. 程式人生 > >大資料的監控和資料準確性保證

大資料的監控和資料準確性保證

我們目前的資料流程是:資料來源資料 經過挖掘處理轉換等操作生成中間資料,入寬表 ,然後 提取寬表資料 入PDC,資料停留的地方有 資料來源–>中間資料–>寬表–>PDC。

目前我們的監控措施如下:
(1) 資料來源 –>中間資料–>寬表 每個資料流有監控,監控的是每個資料的總量
(2) 每天執行監控 監控 寬表每個資料的變化
(3) 寬表–>PDC有對最終每種資料總量的監控 和 對 資料的簡單校驗(如 太大的資料,太小的資料,資料解密異常等的校驗)

雖然在總概上能夠保證資料的準確性,但是具體到每一個數據的準確性上需要加強,目前想到的加強措施如下:
(1)針對得到的PDC資料,另起一套程式碼反向匹配校驗 寬表 和 資料來源 資料。
(2)加強Code Review,確保程式碼邏輯不出問題;加強溝通,確保對資料的處理理解不產生歧義。
(3) 開發一套注重隱私安全的簡單校驗系統,讓每個人能夠核對一下自己的PDC資料,以發現 資料探勘 的不足,並進行優化。