一、資料探勘
資料探勘的發展動力---需要是發明之母
資料爆炸問題
自動資料收集工具和成熟的資料庫技術使得大量的資料被收集,儲存在資料庫、資料倉庫或其他資訊庫中以待分析。我們擁有豐富的資料,但卻缺乏有用的資訊
解決方法:資料倉庫技術和資料探勘技術
資料倉庫(Data Warehouse)和線上分析處理(OLAP)
資料探勘:在大量的資料中挖掘感興趣的知識(規則,規律,模式,約束)
什麼是資料探勘?
資料探勘 (從資料中發現知識),從大量的資料中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識
挖掘的不僅僅是資料(所以“資料探勘”並非一個精確的用詞),資料探勘的替換詞
資料庫中的知識挖掘(KDD)、知識提煉、資料/模式分析、資料考古、資料捕撈、資訊收穫等等。
資料探勘: 資料庫中的知識挖掘(KDD)
資料探勘——知識挖掘的核心
KDD的步驟
從KDD對資料探勘的定義中可以看到當前研究領域對資料探勘的狹義和廣義認識
資料清理: (這個可能要佔全過程60%的工作量)
資料整合
資料選擇
資料變換
資料探勘(選擇適當的演算法來找到感興趣的模式)
模式評估
知識表示
在何種資料上進行資料探勘
關係資料庫
資料倉庫
事務資料庫
高階資料庫系統和資訊庫
空間資料庫
時間資料庫和時間序列資料庫
流資料
多媒體資料庫
面向物件資料庫和物件-關係資料庫
異種資料庫和歷史(legacy)資料庫
文字資料庫和全球資訊網(WWW)
資料探勘應用——市場分析和管理(1)
資料從那裡來?
信用卡交易, 會員卡, 商家的優惠卷, 消費者投訴電話, 公眾生活方式研究
目標市場
構建一系列的“客戶群模型”,這些顧客具有相同特徵: 興趣愛好, 收入水平, 消費習慣,等等
確定顧客的購買模式
交叉市場分析
貨物銷售之間的相互聯絡和相關性,以及基於這種聯絡上的預測
資料探勘應用——市場分析和管理(2)
顧客分析
哪類顧客購買那種商品 (聚類分析或分類預測)
客戶需求分析
確定適合不同顧客的最佳商品
預測何種因素能夠吸引新顧客
提供概要資訊
多維度的綜合報告
統計概要資訊 (資料的集中趨勢和變化)
資料探勘應用——公司分析和風險管理
財務計劃
現金流轉分析和預測
交叉區域分析和時間序列分析(財務資金比率,趨勢分析等等)
資源計劃
總結和比較資源和花費
競爭
對競爭者和市場趨勢的監控
將顧客按等級分組和基於等級的定價過程
將定價策略應用於競爭更激烈的市場中
資料探勘應用——欺詐行為檢測和異常模式的發現
方法: 對欺騙行為進行聚類和建模,並進行孤立點分析
應用: 衛生保健、零售業、信用卡服務、電信等
汽車保險: 相撞事件的分析
洗錢: 發現可疑的貨幣交易行為
醫療保險
職業病人, 醫生以及相關資料分析
不必要的或相關的測試
電信: 電話呼叫欺騙行為
電話呼叫模型: 呼叫目的地,持續時間,日或周呼叫次數. 分析該模型發現與期待標準的偏差
零售產業
分析師估計有38%的零售額下降是由於僱員的不誠實行為造成的
反恐怖主義
資料探勘的主要功能 ——可以挖掘哪些模式?
一般功能
描述性的資料探勘
預測性的資料探勘
通常,使用者並不知道在資料中能挖掘出什麼東西,對此我們會在資料探勘中應用一些常用的資料探勘功能,挖掘出一些常用的模式,包括:
概念/類描述:特性化和區分
關聯分析
分類和預測
聚類分析
孤立點分析
趨勢和演變分析
- 概念/類描述: 特性化和區分
概念描述:為資料的特徵化和比較產生描述(當所描述的概念所指的是一類物件時,也稱為類描述)
特徵化:提供給定資料集的簡潔彙總。
例:對AllElectronic公司的“大客戶”(年消費額$1000以上)的特徵化描述:40-50歲,有固定職業,信譽良好,等等
區分:提供兩個或多個數據集的比較描述。
- 關聯分析
關聯規則挖掘:
從事務資料庫,關係資料庫和其他資訊儲存中的大量資料的項集之間發現有趣的、頻繁出現的模式、關聯和相關性。
廣泛的用於購物籃或事務資料分析。
- 聚類分析
聚類分析:
將物理或抽象物件的集合分組成為由類似的物件組成的多個類的過程。
最大化類內的相似性和最小化類間的相似性
例:對WEB日誌的資料進行聚類,以發現相同的使用者訪問模式
- 孤立點分析
孤立點分析
孤立點:一些與資料的一般行為或模型不一致的孤立資料
通常孤立點被作為“噪音”或異常被丟棄,但在欺騙檢測中卻可以通過對罕見事件進行孤立點分析而得到結論。
應用
信用卡欺詐檢測
行動電話欺詐檢測
客戶劃分
醫療分析(異常)
- 趨勢和演變分析
描述行為隨時間變化的物件的發展規律或趨勢(時序資料庫)
趨勢和偏差: 迴歸分析
序列模式匹配:週期性分析
基於類似性的分析
所有模式都是有趣的嗎?
資料探勘可能產生數以千計的模式或規則,但並不是所有的模式或規則都是令人感興趣的。
模式興趣度的度量
一個模式是有趣的,如果(1) 它易於被人理解 ;(2)在某種程度上,對於新的或測試資料是有效的;(3)具有潛在效用;(4)新穎的;(5)符合使用者確信的某種假設
模式興趣度的客觀和主觀度量
客觀度量: 基於所發現模式的結構和關於它們的統計, 比如: 支援度、置信度等等
主觀度量: 基於使用者對資料的判斷。比如:出乎意料的、新穎的、可行動的等等
能夠產生所有有趣模式並且僅產生有趣模式嗎?
找出所有有趣的模式: 資料探勘演算法的完全性問題
資料探勘系統能夠產生所有有趣的模式嗎?
試探搜尋 vs.窮舉搜尋
關聯 vs. 分類 vs. 聚類
只搜尋有趣的模式: 資料探勘演算法的最優化問題
資料探勘系統可以僅僅發現有趣的模式嗎?
方法
首先生成所有模式然後過濾那些無趣的.
僅僅生成有趣的模式—挖掘查詢優化
資料探勘:多個學科的融合
資料庫系統、統計學、機器學習、演算法、視覺化、其他學科