資料分析_資料分析概述
阿新 • • 發佈:2020-10-22
資料分析流程
瞭解業務--瞭解資料--確認業務和資料--預期分析和管理-資料分析方式
瞭解業務和資料
01.瞭解資料
資料 1.測量標度型別 屬性本源並不是數字或者符號,通過測量標度將數值或者符號和物件的屬性建立關聯。 屬性的型別--測量尺度 nominal 標稱----等於或者不等於--------一對一的變換 ordinal 序數---大於或者小於----------單調函式的變換 interval 區間----加減------------------- 一次函式 ratio 比率---- 乘除------------------- 比例函式 資料的大類:離散資料和連續資料- 資料的度量單位:分、元 舉例 溫度--華氏溫度和攝氏溫度 計數屬性是離散的也是比率屬性 2.有序資料--屬性涉及時間或者空間的聯絡 截面資料--在相同或者近似相同的時間點上收集的資料 時序資料 時間序列資料 序列資料--考慮項的位置 空間資料 資料集 資料集的屬性 維度 稀疏性 資料集的平衡性--非平衡資料 粒度--解析度 時效性 相關性 訓練集和測試集--為了評估模型的可靠性以及擴充套件性 資料集的表示--資料格式 資料矩陣 購物籃資料 資料背景 資料分析和判斷,其中對資料背景的瞭解是必不可少的
02.瞭解資料過程中的常見問題
資料的安全性 資料的保密:許可權以及抵抗力 資料的恢復:冗餘-備份-容災 資料的追溯:可追溯 資料來源-- 資料過程可重複 資料的可用性 資料質量問題 完整,全面,一致,準確,可解釋-可靠性 現象--原因---解決方式 異常值--缺失值--重複值--不一致值--噪聲--遺漏值 資料質量的檢測和糾正 資料演算法的容忍度 資料的複用性 資料格式--資料是給人看的,同時也是給機器看的--檔案格式與編碼 通過一定的資料格式--自解釋資料格式 例如:JSON,XML等 資料架構可用性 架構的可擴充套件性 資料的流動 異構資料來源流向統一的目標資料--資料的ETL 採集誤差--轉換規則 資料陷阱 沉默資料缺失 資料的成本和時效 資料過擬合--評估模型的可靠性--分為訓練集和測試集 資料造假 案例- 孫臏 減灶誘敵 諸葛亮 增灶退兵
資料分析思路
確認場景 確認資料 是什麼?
探索原因,需找因素 為什麼
解決思路和方式 怎麼辦
資料分析技術
技術流派
資料排查流程
從資料結果上
1、檢索結果中的資料格式檢驗,從開發角度來說是瞭解資料型別,欄位等的準確性
2、檢索結果中的資料量是否符合檢索條件,判斷資料量的準確性。資料的分佈,極值和均值等
3. 樣本資料檢測,通過不同的資料進行相互驗證,判斷資料中數值的正確性,
4. 歷史資料檢測,進行資料合理性判斷
常規內容
瞭解常見的錯誤型別
記錄特殊的錯誤型別
規範的資料操作方式
參考
參考