1. 程式人生 > >資料探勘概念與技術——讀書筆記(1)

資料探勘概念與技術——讀書筆記(1)

原書第三版
Jiawei Han     Micheline Kamber     Jian Pei  著

第一章 引論

為什麼進行資料探勘

解決“資料豐富,但資訊貧乏”的問題。
資料的爆炸式增長,廣泛可用,巨大數量  ——>   資料時代  ——>   需要功能強大和通用的工具,從海量資料中發現有價值的資訊。

什麼是資料探勘

從資料中挖掘知識。

  • 資料清理(消除噪聲和刪除不一致的資料)
  • 資料整合(多種資料來源可以組合在一起)
  • 資料選擇(從資料庫中提取與分析任務相關的資料)
  • 資料變換(通過彙總或聚集操作,把資料變換和統一成適合挖掘的形式)
  • 資料探勘(基本步驟,使用智慧方法提取資料模式)
  • 模式評估(根據某種興趣度度量,識別代表知識的真正有趣的資料)
  • 知識表示(使用視覺化和知識表示技術,向用戶提供挖掘的知識)
    書 引言 P5

可以挖掘什麼型別的資料

  • 資料庫資料
    • 由一組內部相關的資料和一組管理和存取資料的軟體程式組成。
    • 關係資料庫是表的彙集(屬性—>欄位或列,元祖—>記錄或行)。物件被唯一關鍵字標識,被一組屬性值描述。
  • 資料倉庫
    • 從多個數據源收集的資訊儲存庫(例如分部遍佈全世界的公司的資料庫)
      資料倉庫舉例  書P7
  • 事務資料
    • 每個記錄代表一個事務。
    • 包含一個唯一的事務標識號,以及一個組成事務的項。
      • 例如商場的第50條交易記錄,使用者購買了A,D,F這三件物品。
  • 其他型別的資料
    • 空間資料,超文字和多媒體資料……等等

可以挖掘什麼型別的模式

  • 描述性(刻畫目標資料中資料的一般性質)
  • 預測性(在當前資料上做出歸納,以便進行預測)

類/概念描述:特徵化與區分
資料特徵化:目標類資料的一般特性或特徵的彙總
資料區分:將目標類,與一個或多個可比較類進行比較。
                 例如:定期購買電腦產品的客戶和不購買電腦產品的客戶進行比較。

挖掘頻繁模式、關聯和相關性
頻繁模式:在資料中頻繁出現的模式。

  • 頻繁項集:頻繁在事務資料集中一起出現(顧客在小賣部總是一起買牛奶和麵包)
  • 頻繁子序列:顧客先買數碼相機,再買記憶體卡。
  • 頻繁子結構

關聯分析(例如分析,哪些商品總是一起被購買)

  • “computer”=>“software”[1% , 50%] 表示所有事務的1%顯示計算機和軟體被同時購買。購買了計算機的人,有50%的可能性會選擇購買軟體。

相關性(相關聯的屬性-值對之間的統計相關性)

用於預測分析的分類和迴歸

  • 分類:找出描述和區分資料類或概念的模型(或函式),預測類別標號。
  • 迴歸:建立連續值函式模型,預測缺失的或難以獲得的數值資料值。

相關分析可能需要在分類和迴歸之前進行,它試圖識別與分類和迴歸過程顯著相關的屬性。

聚類分析
聚類分析:分析資料物件,而不考慮類標號。可以使用聚類產生資料組群的類標號。
—>“最大化類內相似性,最小化類間相似性”

離群點分析
異常挖掘。有時看做噪聲而丟棄,但是在比如欺詐檢測等應用中,罕見事件的出現,更令人感興趣。

所有模式都是有趣的嗎?

  • 易於被人理解
  • 在某種確信度上,對於新的或檢驗資料是有效的
  • 潛在有用的
  • 新穎的

客觀度量:支援度,置信度。公式  書P14

使用什麼技術

書 P14

  • 統計學:例如建立分類或預測模型之後,統計假設檢驗來驗證模型
  • 機器學習:監督學習(基本上是分類的同義詞),無監督學習(本質上是聚類的同義詞),半監督學習,主動學習
  • 資訊檢索:搜尋文件或文件中資訊的科學

面向什麼型別的應用

商務智慧、Web搜尋、生物資訊學、衛生保健資訊學、金融、數字圖書館……

資料探勘的主要問題

  • 挖掘方法
    • 新的知識型別、多維空間中的知識、跨學科、網路環境下的挖掘能力、模式評估
  • 使用者互動
    • 結合背景知識
    • 表示和視覺化,使知識更容易理解
  • 有效性與可伸縮性
  • 處理多種多樣的資料型別
    • 動態的、複雜的。
  • 資料探勘與社會
    • 保護隱私
    • 社會影響

自己加油加油 笨鳥後飛也要飛呀飛