1. 程式人生 > 實用技巧 >資料分析_資料分析概述

資料分析_資料分析概述

資料分析流程

瞭解業務--瞭解資料--確認業務和資料--預期分析和管理-資料分析方式

瞭解業務和資料

01.瞭解資料

資料
  1.測量標度型別
    屬性本源並不是數字或者符號,通過測量標度將數值或者符號和物件的屬性建立關聯。
     屬性的型別--測量尺度
  	 nominal  標稱----等於或者不等於--------一對一的變換
  	 ordinal  序數---大於或者小於----------單調函式的變換
  	 interval 區間----加減------------------- 一次函式
  	 ratio	  比率---- 乘除------------------- 比例函式
  	資料的大類:離散資料和連續資料-
  	資料的度量單位:分、元
     舉例
  	 溫度--華氏溫度和攝氏溫度
  	 計數屬性是離散的也是比率屬性
   2.有序資料--屬性涉及時間或者空間的聯絡
		截面資料--在相同或者近似相同的時間點上收集的資料
		時序資料
		  時間序列資料
		序列資料--考慮項的位置
		空間資料		
資料集
	資料集的屬性
	  維度
	  稀疏性
	  資料集的平衡性--非平衡資料
	  粒度--解析度
	  時效性
	  相關性
	  訓練集和測試集--為了評估模型的可靠性以及擴充套件性
	資料集的表示--資料格式
	  資料矩陣
	  購物籃資料
資料背景
	資料分析和判斷,其中對資料背景的瞭解是必不可少的

02.瞭解資料過程中的常見問題

資料的安全性
	資料的保密:許可權以及抵抗力
	資料的恢復:冗餘-備份-容災

	資料的追溯:可追溯
		資料來源--
		資料過程可重複

 資料的可用性
	資料質量問題
	    完整,全面,一致,準確,可解釋-可靠性
	    	現象--原因---解決方式
	    	   異常值--缺失值--重複值--不一致值--噪聲--遺漏值
	    	資料質量的檢測和糾正
	    	資料演算法的容忍度
	資料的複用性
	   資料格式--資料是給人看的,同時也是給機器看的--檔案格式與編碼
	   	通過一定的資料格式--自解釋資料格式			例如:JSON,XML等
	   
	   資料架構可用性
	   	架構的可擴充套件性
	資料的流動
		異構資料來源流向統一的目標資料--資料的ETL
		採集誤差--轉換規則			

資料陷阱
沉默資料缺失
資料的成本和時效
資料過擬合--評估模型的可靠性--分為訓練集和測試集

資料造假
	案例-
		孫臏	減灶誘敵
		諸葛亮	增灶退兵

資料分析思路

確認場景 確認資料  是什麼?
探索原因,需找因素  為什麼
解決思路和方式     怎麼辦

資料分析技術

技術流派

資料排查流程

從資料結果上
 1、檢索結果中的資料格式檢驗,從開發角度來說是瞭解資料型別,欄位等的準確性
 2、檢索結果中的資料量是否符合檢索條件,判斷資料量的準確性。資料的分佈,極值和均值等
 3. 樣本資料檢測,通過不同的資料進行相互驗證,判斷資料中數值的正確性,
 4. 歷史資料檢測,進行資料合理性判斷
常規內容
  瞭解常見的錯誤型別
  記錄特殊的錯誤型別
  規範的資料操作方式

參考

參考