1. 程式人生 > >《資料探勘概念與技術》學習筆記

《資料探勘概念與技術》學習筆記

1.Chapter1 引論:
(1) OLTP 和 OLAP 概念:
OLTP(on-line transaction processing) 聯機事物處理,就是我們經常說的關係資料庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。例如:mysql
OLAP(on-line analytical processing) 聯機分析處理,是資料倉庫系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。例如:hive+hdfs。 

(2) 資料倉庫概念:
資料倉庫是一個面向主題的(subject-oriented)、整合的(integrated)、時變的(time-variant)、非易失的(nonvolatile)資料集合,支援管理者的決策過程。
ps:上面是比較官網的定義,更白話一點就是:資料倉庫是一種多個異構資料來源在單個站點以統一的模式組織的儲存,以支援管理決策。

(3) 資料探勘的步驟(KDD):
資料清理(清除噪聲和刪除不一致資料)。
資料整合(多種資料來源可以組合在一起)。
資料選擇(從資料庫中提取和分析任務相關的資料)。
資料變換(通過彙總或聚集操作,把資料變換和統一成適合資料探勘的形式。
資料探勘(基本步驟,使用智慧方法提取資料模式)。
資料評估(根據某種興趣度度量,識別代表知識的真正有趣的模式)。
知識表示(使用視覺化和知識表示技術,向用戶提供挖掘的知識)。

ps:資料探勘是從大量資料中挖掘有趣模式和知識的過程,資料來源包括資料庫、資料倉庫、Web、其他資訊儲存庫或動態地流入系統的資料。

(4) 離群點分析:
資料集中可能包含一些資料物件,他們與資料的一般行為或模型不一致。這些資料物件是離群點(outlier)。大部分資料探勘方法都將離群點視為噪聲或異常而丟棄。

(5) 多維資料探勘(又稱探索式資料探勘)把資料探勘的核心技術和OLAP的多維分析結合在一起。他在不同的抽象層的多維(屬性)組合中搜索有趣的模式,從而探索多維資料空間。

2.Chapter2 認識資料:
(1)各種數的定義:
眾數:眾數是資料集中心的一種中心度量趨勢,資料集的眾數是集合中出現最頻繁的的值。
中列數:中列數也可以用來評估數值資料的中心趨勢。中列數是資料集中的最大和最小值的平均值。
中位數:對於傾斜(非對稱)資料,資料中心的最好度量是中位數。中位數是有序數值的中間值。它把資料較高的一半和較低的一半分開的值。
分位數:分位數根據其資料列等分的形式不同可以分為中位數、四分位數、十分位數、百分位數等等。四分位數作為分位數的一種形式,在統計中有十分重要的意義和作用。人們經常會將資料劃分為4個部分,每個部分大約包含1/4和25%的資料項。這種劃分的臨界點即為四分位數。他們定義如下:
Q1=第一個四分位數,即第25百分位數。
Q2=第二個四分位數,即第50百分位數。
Q3=第三個四分位數,即第75百分位數。

(2)距離:
歐式距離:歐式距離(Euclidean distance)也稱歐幾里得距離,他是一個通常採用的距離定義,他是在m維空間中兩個點之間的真實距離。
定義公式如下:d=sqrt( ∑(xi1-xi2)^2 ) 這裡i=1,2..n

曼哈頓距離(計算兩個街區之間的距離):
距離公式為:|x1-y1|+|x2-y2|+|x3-y3|+|x4-y4|+……+|xn-yn|(兩點的座標分別為(x1,x2,……,xn)、(y1,y2,……,yn))

閔可夫斯基距離:其是歐幾里得距離和曼哈頓距離的推廣。 公式定義為: 

3.chapter3 資料預處理:
(1) 恆量資料質量的幾個要素:準確性、完整性、一致性、時效性、可信性、可解釋性。
(2) 資料預處理分為如下幾個步驟:資料清理、資料整合、資料規約、資料交換。
資料清理:資料清理是通過填寫缺失的值,光滑噪聲資料,識別和刪除離群點並解決不一致性來“清理”資料。
資料整合:整合多個數據庫、資料立方體或檔案,即資料整合。
資料規約(data reduction):得到資料集的簡化表示,它小的多,但能夠產生同樣(或幾乎同樣的)分析結果。資料規約策略包括維規約和數值規約。在維規約中,使用資料編碼方案,以便得到資料的簡化或“壓縮”表示。例如資料資料壓縮技術(小波變化或主成分分析)。在數值規約中,使用引數模型(例如,迴歸和對數線性模型)或非引數模型(例如,直方圖、聚類、抽樣或資料聚集),用較小的表示取代資料。
(3)缺失值處理策略:
忽略缺失值、人工填寫缺失值、使用一個全域性常量填充缺失值、使用屬性的中心度量(如均值或中位數)、使用與給定元祖屬同一類的所有樣本的屬性均值或中位數、使用最可能的值填充缺失值。
(4)資料變換策略:
光滑(smoothing):去掉資料中的噪聲。這類技術包括分箱、迴歸、和聚類。
屬性構造:可以由給定的屬性構造新的屬性並新增到屬性集中,以幫助挖掘過程。
聚集:對資料進行彙總或聚集。例如:可以聚集日銷售資料,計算月銷售或年銷售資料,通常,這一步用來為多個抽象層的資料分析構造資料立方體。
規範化:把屬性資料按比例縮放,使之落入一個特定的小區間,例如 -1 ~ 1。
離散化:數值屬性(例如:年齡)的原始值,可以用數值區間替換使其離散化。
由標稱資料產生概念分層:屬性,如street,可以泛化到較高的概念層,例如city或country。

4.chapter4 資料倉庫和聯機分析處理(OLAP):
(1) OLTP和OLAP的主要區別如下:
=>使用者和系統的面向性:OLTP是面向顧客的,用於辦事員、客戶和資訊科技專業人員的事物和查詢處理。OLAP是面向市場的,用於知識工人(包括經理、主管和分析人員)的資料分析。
=>資料內容:OLTP系統管理當前資料。通常,這種資料臺瑣碎,很難用於決策。OLAP系統管理大量歷史資料,提供彙總和聚集機制,並在不同的粒度層上儲存和管理資訊。這些特點使得資料更容易用於有根據的決策。
=>資料庫設計:通常,OLTP系統採用實體-聯絡(ER)資料模型和麵嚮應用的資料庫設計。而OLAP系統通常採用星形或雪花模型和麵向主題的資料庫設計。
=>檢視:OLTP系統主要關注一個企業或部門內部的當前資料,而不涉及歷史資料或不同單位的資料。OLAP系統常常跨越資料庫模式的多個版本。OLAP系統還處理來自不同單位的資訊,以及由多個數據庫整合的資訊。 =>訪問模式:OLTP系統的訪問主要由短的原子事物組成。這種系統需要併發控制和恢復機制。然而,對OLAP系統的訪問大部分是隻讀操作(由於大部分資料倉庫存放歷史資料,而不是最新資料)。

(2)資料倉庫的分層結構:
底層是倉庫資料庫伺服器 =》 中間層是OLAP伺服器 =》 頂層是前端客戶層。

(3)資料倉庫模型: 企業倉庫、資料集市、虛擬倉庫。
=》企業倉庫:企業倉庫蒐集了關於主題的所有資訊,跨越整個企業。它提供企業範圍內的資料整合,通常來自一個或多個作業系統資料庫系統或外部資訊提供者,並且是多功能的。
=>資料集市:資料集市包含企業範圍資料的一個子集,對於特定的使用者群是有用的。其範圍限定於選定的主題。
=>虛擬倉庫:虛擬倉庫是操作資料庫上檢視的集合。為了有效的處理查詢,只有一些可能的彙總檢視被物化。虛擬倉庫易於建立,但需要操作資料庫伺服器還有餘力。

OLAP操作:
(4)上卷(roll-up)操作:上卷操作通過沿一個維的概念分層向上攀升或者通過維規約在資料立方體上進行聚集。
(5)下鑽(drill-down):下鑽是上卷的逆操作,它由不太詳細的資料得到更詳細的資料。下鑽可以通過沿維的概念分層向下或引入附加的維來實現。

5.chapter5資料立方體技術:
(1)資料立方體由方體的格組成。每個方體都對應給定多維資料的不同程度的彙總。完全物化是指計算資料立方體格中的所有方體。部分物化是指選擇性的計算格中方體單元的子集。冰山立方體是一種資料方體,它僅儲存其聚集值(如count)大於某最小支援度閾值的立方體單元。
(2)4種有效的立方體計算方法:1)多路資料聚集Multiway,基於稀疏陣列的、自底向上的、共享計算的物化整個資料立方體;2)BUC,通過探查有效的自頂向下的計算次序和排序計算冰山立方體;3)Star-Cubing,使用星樹結構,整合自頂向下和自底向上計算,計算冰山立方體。4)外殼片段立方體,通過僅計算劃分的立方體外殼片段,支援高維OLAP。

6.chapter6 資料頻繁模式、關聯和相關性:
(1) 關聯規則挖掘首先找出頻繁項集(項的集合,如A和B,滿足最小支援度閥值,或任務相關元祖的百分比),然後,由他們產生形如A=》B的強關聯規則。這些規則還滿足最小置信度閥值。可以進一步分析關聯,發現項集A和B之間具有統計相關性的相關規則。

(2) 對於頻繁項集挖掘,已經開發了許多有效的、可伸縮的演算法,由他們可以匯出關聯和相關規則。這些演算法可以分為3類: 1)類Apriori演算法; 2)基於頻繁模式增長的演算法,如:FP-growth; 3)使用垂直資料格式的演算法。

(3) Apriori演算法是為布林關聯規則挖掘頻繁項集的原創性演算法。它逐層進行發掘,利用先驗性質:頻繁項集的所有非空子集也都是頻繁的。

(4) 頻繁模式增長(FP-growth)是一種不產生候選的挖掘頻繁項集方法。它構造一個高壓縮的資料結構(FP樹),壓縮原來的資料庫。與類Apriori方法使用產生-測試策略不同,它聚焦於頻繁模式增長,避免了高代價的候選產生,可獲得更高的效率。

7.Chapter 7
(1)稀有模式很少出現但特別有趣。負模式是其成員呈現負相關行為的模式。應該小心定義負模式,考慮零不變性性質。稀有模式和負模式可能凸顯資料的異常行為,這肯能很有趣。
(2)基於約束的挖掘策略可以用來引導挖掘過程,挖掘和使用者直觀一致或滿足某些約束的模式,許多使用者包括單調性,反單調性,資料反單調性和簡潔性。具有這些性質的約束可以正確的整合到資料探勘過程中。
(3)為了減少挖掘返回的模式數量,我們可以代之以挖掘壓縮模式或近似模式。壓縮模式可以通過基於聚類概念定義代表模式來挖掘,而近似模式可以通過提取感知冗餘的top-k模式(即k個代表模式的小集合,他們不僅具有高顯著性,而且相互之間低冗餘)來挖掘。

8.Chapter 8
(1) 分類是一種資料分析形式,它提取描述資料類的模型。分類器或分類模型預測類標號(類)。資料預測建立連續函式模型。分類和數值預測是兩類主要的預測問題。

(2) 決策樹歸納是一種自頂向下的樹歸納演算法,它使用一種屬性選擇度量為樹的每個非樹葉結點選擇屬性測試。ID3、C4.5和CART都是這種演算法的例子,他們使用不同的屬性選擇度量。樹剪枝演算法試圖通過減去反映資料中噪聲的分枝、提高準確率。早期的決策樹演算法通常假定資料是駐留記憶體的。已經為可伸縮的樹歸納提出了一些可伸縮的演算法,如RainForest。

(3) 樸素貝葉斯分類基於後驗概率的貝葉斯定理。它假定類條件獨立,一個屬性對給定分類的影響獨立於其他屬性的值。

(4) 分類器的構造與評估需要把標記的資料劃分成訓練集和測試集。保持、隨機抽樣、交叉驗證和自助法都是用於這種劃分的典型方法。

(5) 顯著性校驗和ROC曲線對於模型選擇是有用的。顯著性校驗可以用來評估兩個分類器準確率的差別是否處於偶然。ROC曲線繪製一個或多個分類器的真正例率(或靈敏性)與假正例率。

9.chapter9
(1) 不像樸素貝葉斯分類(它假定類條件獨立),貝葉斯信念網路允許在變數子集之間定義類獨立性。它提供了一種因果關係的圖形模型,在其上進行學習。訓練後的貝葉斯信念網路可以用來分類。

(2) 支援向量機(SVM)是一種用於線性和非線性資料的分類方法。它把資料來源資料變換到較高維空間,使用稱作支援向量的基本元組,從中發現分離資料的超平面。

(3) 主動學習是一種監督學習,它適合資料豐富、但類標號稀缺或難以獲得的情況。學習演算法可以主動的向用戶學習詢問類標號。為了保持低價,主動學習的目標是使用盡可能少的有標號的例項來獲得高準確率。

10.chapter 10
(1) 簇是資料物件的集合,同一個簇中的物件彼此相似,而不同簇中的物件彼此相異。將物理或抽象物件的集合劃分為相似的類的過程成為聚類。
(2) 聚類分析具有廣泛的應用,包括商務智慧,影象模式識別,Web搜尋,生物學和安全。聚類分析可以作為獨立的資料探勘工具來獲得資料分佈的瞭解,也可以作為檢測簇上執行的其他資料探勘演算法的預處理步驟。
(3) 劃分方法:首先建立K個分割槽的初始集合,其中引數k是構建的分割槽數。然後,它採用迭代重定位技術,試圖通過吧物件從一個簇移到另一個簇來改進劃分的質量。典型的劃分方法包括k-均值、k-中心點、CLARANS。