資料探勘流程學習筆記
阿新 • • 發佈:2018-12-17
資料探勘流程
1.資料探索
1.1資料質量分析
a. 缺失值
原因:有些資訊暫時無法獲取或者代價太大;有些資訊被遺漏;屬性值影響
影響:丟失大量有用資訊;模型的不確定性更加顯著,蘊含的規律難以把握;不可靠的輸出
處理方法:刪除存在缺失值的記錄;插補;不處理
b.異常值
原因:錄入錯誤、含有不合理資料
處理方法:簡單統計量分析;箱型圖分析等
c.一致性分析:資料的矛盾性、不相容性
1.2 資料特徵分析
a.分佈分析:極差、方差、組距、頻率等
b.對比分析:絕對比較、相對比較
1.3統計量分析
a.集中趨勢:均值(對極端值很敏感)、中位數、眾數
b.離中趨勢:極差、標準差、變異係數、四分位數間距
1.4週期性分析
1.5貢獻度分析
1.6相關性分析
2資料預處理
2.1資料清洗:刪除原始資料中無關、重複的資料,平滑噪聲,篩選掉與挖掘主題無關的資料,處理缺失值和異常值
2.2資料整合:將多個數據源合併存放在一個一致的資料儲存中的過程
3資料變換
1.簡單函式變化:平方、開方、取對數
2.規範化:最小最大值、零均值、小數定標
4連續屬性離散化
1.離散化:等寬、等頻、基於聚類
2屬性構造:利用已有的屬性構造新屬性
3小波變換:多解析度、通過伸縮和平移對訊號進行多尺度分析
5資料規約
1屬性規約:包括增加和刪除屬性
2數值規約:選擇替代的、較小的資料來減少資料量