《資料探勘導論》第一章之緒論
資料探勘數學基礎:
線性代數, 維度規約, 概率統計, 迴歸和優化
資料探勘涵蓋領域:
資料預處理,視覺化,預測建模,關聯分析,聚類,異常檢測
資料探勘涵蓋主題:
資料,分類,關聯分析,聚類,異常檢測
資料探勘必要基礎知識:
統計學,線性代數,機器學習
資料庫中知識發現(KDD):
(1)資料預處理: 特徵選擇,維規約,規範化,選擇資料子集
(2)資料探勘:
(3)後處理: 模式過濾, 視覺化, 模式表示
資料探勘借鑑的領域:
(1)統計學: 抽樣,估計和假設檢驗
(2)人工智慧,模式識別和機器學習: 搜尋演算法,建模技術和學習理論
(3)最優化,進化計算,資訊理論,訊號處理,視覺化,資訊檢索
資料探勘任務分類:
(1)預測任務: 根據 自變數 預測 因變數
(2)描述任務: 匯出概括資料中潛在聯絡的模式
(相關,趨勢,聚類,軌跡和異常)
本書主要講述資料探勘任務:
(1)預測建模:
分類(classification):預測離散的目標變數
迴歸(regression):預測連續的目標變數
(2)關聯分析:
描述資料中強關聯特徵的模式
模式:用蘊涵規則或特徵子集的形式表示
(3)聚類分析:發現緊密相關的觀測值組群,是的屬於統一簇的觀測值之間儘可能相似
(4)異常檢測:識別異常點或離群點。
異常點(離群點): 特徵顯著不同於其他資料的觀測值。