KDD資料探勘(韓家煒)學習----導論
阿新 • • 發佈:2018-12-13
為什麼進行資料探勘
有需求,才會有解決需求的辦法。
對於工作,學習,生活中的各種海量資料,我們需要一種工具來從這些資料中發現有價值的資訊,把這些資料轉化成有組織的知識----需求產生
解決辦法:資料探勘
經典的例子:谷歌預測流感趨勢
資料庫系統技術的演變,如下圖
什麼是資料探勘
資料探勘:從資料中挖掘知識,即資料中的知識發現(KDD)
將淑君挖掘看作知識發現的過程,如下:
- 資料清理---消除噪聲和刪除不一致資料
- 資料整合---多種資料來源組合在一起
- 資料選擇---從資料中提取與分析任務有關的資料
- 資料變換---通過彙總或聚集操作,將資料轉變和統一成適合挖掘的形式
- 資料探勘---基本步驟,使用智慧方法提取資料模式
- 模式評估---根據某種興趣度度量,識別大愛表知識的真正有趣的模式
- 知識表示---使用視覺化和知識表示技術,向用戶提供挖掘的知識
步驟1-4:資料預處理,為挖掘準備資料
可以挖掘的資料型別
關係資料,資料倉庫,事務資料,其他型別的資料(時間相關或序列資料,資料流,空間資料,圖和網狀資料,。。。等)
可以挖掘的模式型別
- 描述性:刻畫目標資料中資料的一般性質
- 預測性:在當前資料上進行歸納,以便做出預測
類/概念描述:特徵化與區分
挖掘頻繁模式、關聯和相關性
頻繁模式:在資料中頻繁出現的模式,存在多種型別的頻繁模式,包括頻繁項集,頻繁子序列和頻繁子結構
用於預測分析的分類與迴歸
聚類分析:最大化類內相似性,最小化類間相似性的原則進行聚類或分組
離群點分析
可以使用的技術
面向應用的型別
商務智慧
搜尋引擎