1. 程式人生 > >KDD資料探勘(韓家煒)學習----導論

KDD資料探勘(韓家煒)學習----導論

為什麼進行資料探勘

有需求,才會有解決需求的辦法。

對於工作,學習,生活中的各種海量資料,我們需要一種工具來從這些資料中發現有價值的資訊,把這些資料轉化成有組織的知識----需求產生

解決辦法:資料探勘

經典的例子:谷歌預測流感趨勢

資料庫系統技術的演變,如下圖

什麼是資料探勘

資料探勘:從資料中挖掘知識,即資料中的知識發現(KDD)

將淑君挖掘看作知識發現的過程,如下:

  1. 資料清理---消除噪聲和刪除不一致資料
  2. 資料整合---多種資料來源組合在一起
  3. 資料選擇---從資料中提取與分析任務有關的資料
  4. 資料變換---通過彙總或聚集操作,將資料轉變和統一成適合挖掘的形式
  5. 資料探勘---基本步驟,使用智慧方法提取資料模式
  6. 模式評估---根據某種興趣度度量,識別大愛表知識的真正有趣的模式
  7. 知識表示---使用視覺化和知識表示技術,向用戶提供挖掘的知識

步驟1-4:資料預處理,為挖掘準備資料

可以挖掘的資料型別

關係資料,資料倉庫,事務資料,其他型別的資料(時間相關或序列資料,資料流,空間資料,圖和網狀資料,。。。等)

可以挖掘的模式型別

  1. 描述性:刻畫目標資料中資料的一般性質
  2. 預測性:在當前資料上進行歸納,以便做出預測

類/概念描述:特徵化與區分

挖掘頻繁模式、關聯和相關性

     頻繁模式:在資料中頻繁出現的模式,存在多種型別的頻繁模式,包括頻繁項集,頻繁子序列和頻繁子結構

用於預測分析的分類與迴歸

聚類分析:最大化類內相似性,最小化類間相似性的原則進行聚類或分組

離群點分析

可以使用的技術

面向應用的型別

商務智慧

搜尋引擎