資料探勘中的模式發現（五）挖掘多樣頻繁模式

挖掘多層次的關聯規則(Mining Multi-Level Associations)

定義

項經常形成層次。

如圖所示

那麼我們可以根據項的細化分類得到更多有趣的模式，發現更多細節的特性。

Level-reduced min-support

使用的是Level-reduced min-support方法來設定最低支援度，即，越低的層有著越低的支援度。

假設我們使用的是統一的最低支援度，那麼如果支援度過低，低層的頻繁項集就會較少，導致很多特性顯示不出來；如果支援度過高，高層的頻繁項集就過多，導致過多無用的特性被展示出來。

group-based “individualized” min-support

不同種類的物品對應的最低支援度應該是不同的，比如鑽石等貴重物品出現的頻率肯定是低於牛奶麵包等日常用品的。

所以應該分組設定最低支援度。

Shared multi-level mining

使用最低層次的支援度來計算和傳遞候選集。也就是使用的是所有層中支援度最小的。

因為這樣可以保證挖掘出的關聯規則不會減少。

冗餘規則(redundant rules)

挖掘多層關聯規則時，由於項之間的“父子”關係，有些發現的規則是冗餘的。

例如

已知，14的milk銷售的是2%milk。

milk→wheatbread [support = 8%, confidence = 70%]
2

%milk→wheatbread [support = 2%, confidence = 72%]

我們可以發現，第一個規則是第二個規則的祖先。而我們可以根據第一個規則的值以及比例放縮，計算出第二個規則的期望。而如果一個規則的支援度和置信度都接近“期望值”，那麼我們稱之為冗餘規則。

挖掘多維度的關聯規則(Mining Multi-Dimensional Associations)

單維規則：
- buys(X,"milk")→buys(X,"bread")
- 可寫成形如milk→bread的boolean關聯規則
多維規則：2維或者斷言
- 維間關聯規則 (no repeated predicates)
  - a
    
    ge(X,"19−25")∧occupation(X,"student")→buys(X,"coke")
- 混合維關聯規則 (repeated predicates)
  - age(X,"19−25")∧buys(X,"popcorn")→buys(X,"coke")
分類屬性
- 具有有限個不同值，沒有排序
定量屬性
- 數值的, 並在數值間具有隱含的序

挖掘量化關聯規則(Mining Quantitative Associations)

定義

量化關聯指的是具有數字資料的屬性，例如，年齡、工資等。

靜態離散化(static discretization)

簡單來說就是使用取值範圍替代數值。

這裡使用取值範圍的原因和ID3和C4.5對於離散數字的處理有關，如果你要考慮每一個年齡，或者每一個薪酬，那麼項的種類就會過於豐富，從而導致我們不能敏感地發現有價值的關聯規則。

但是，如果我們使用十年，或者五年作為一次年齡的分割，我們就可以將項的種類縮小，而每個項出現的頻率增加。

資料立方(data cube)

使用一些預定義的層次結構概念，再加上靜態的離散化，我們可以得到類似下圖的資料立方體。從而更好地實現挖掘功能。

當然，這是固定的分類或者量化方法，也可以通過聚類將某一具體的資料進行分類，從而動態地決定量化方法。

偏差分析(deviation analysis)

用的是統計學的方法進行分析，一般是使用平均值或者中位數等等，然後根據規則和平均值的偏差來挖掘的。

Gender=female⇒Wage:mean=$7/hr(overallmean=$9)

當然，我們也要通過一些統計學的測試來證明這個規則有著較高的可信度，而不僅僅一個例外。

挖掘負相關(Mining Negative Correlations)

罕見模式(Rare Pattern)

它們很少發生，有著較低的支援度，但是它們還是很有趣的。

比如，我們買了周大生的珠寶，雖然很少發生，但是我們需要這方面的規則。

那麼，之前說過需要使用分組的方式來設定個性化的最低支援度。

負模式(Negative Pattern)

基於支援度的定義(support-based definition)

負相關項集項集X是負相關的，如果

s(X)<∏kj=1s(xj)=s(x1)×s(x2)×⋯×s(xk)

s(x)是給出了X的所有項統計獨立的概率估計。如果它的支援度小於使用統計獨立性假設計算出的期望支援度。s(X)越小，模式就越負相關。簡單來說，就是這兩個事件不太會同時發生。

基於Kulczynski測量的定義

如果兩個項集A和B，有如下關係

P(A|B)+P(B+A)2<ϵ

則稱其為負相關。（其中ϵ是人為設定的負相關的閾值）

負相關關聯規則

規則X→Y是負相關的，如果

s(X∪Y)<s(X)s(Y)

其中X∩Y=∅，這裡定義的X和Y中的項的負相關部分條件，負相關的完全條件為

s(X∩Y)<∏is(xi)∏js(yj)

其中xi∈X而yi∈Y。因為X或Y中的項通常是正相關的，因此使用部分條件而不是完全條件來定義負相關關聯規則更實際。如規則

眼鏡，鏡頭清潔劑→隱形眼鏡，鹽溶液

是負相關的，但是其中項集內的項之間是負相關的，眼鏡盒鏡頭清潔劑是負相關的，如果使用完全條件，可能就不能發現該規則了。

負相關條件也可以用正項集和負項集的支援度表示

s(X∪Y)−s(X)s(Y)=s(X∪Y)−[s(X∪Y)+s(X∪Y¯¯¯)][s(X∪Y)+s(X¯¯¯∪Y)]=s(X∪Y)s(X

資料探勘中的模式發現（五）挖掘多樣頻繁模式

挖掘多層次的關聯規則(Mining Multi-Level Associations) 定義項經常形成層次。如圖所示那麼我們可以根據項的細化分類得到更多有趣的模式，發現更多細節的特性。 Level-reduced min-support

資料探勘十大演算法（五）：EM(Expectation Maximum)演算法原理與Python實現

參考：一、一個簡單的概率問題實驗：現在有A和B兩個硬幣，我們從這兩個硬幣中，隨機選取5次，做5組實驗，每組實驗內容是：丟擲所選的硬幣，記錄正反面。實驗資料如下：目標：根據所得到的實驗資料，分別求出硬幣A和B丟擲後正面向上的概率。根據古典概率的原

資料探勘入門系列教程（五）之Apriori演算法Python實現

資料探勘入門系列教程（五）之Apriori演算法Python實現載入資料集獲得訓練集頻繁項的生成生成規則獲得support獲得confidence獲得Lift進行驗證總結參考資料探勘入門系列教程（五）之Apriori演算法Python實現在上一篇部落格中，我們介紹了Apriori演算法的演算法流

資料探勘中的模式發現（六）挖掘序列模式

序列模式挖掘序列模式挖掘(sequence pattern mining)是資料探勘的內容之一，指挖掘相對時間或其他模式出現頻率高的模式，典型的應用還是限於離散型的序列。。其涉及在資料示例之間找到統計上相關的模式，其中資料值以序列被遞送。通常假設這些值是

資料探勘 | 親和性分析（三）

既然統計出所有規則的支援度和置信度，那麼我們就想知道到底哪一條規則是支援度或置信度最高的，以便商家分析出顧客的習慣。首先我們要給支援度和置信度字典進行排序這裡需要用到operator模組的itemgetter函式 # 對支援度字典進行排序 from oper

【機器學習】資料探勘演算法——關聯規則（一），相關概念，評價指標

綜述：資料探勘是指以某種方式分析資料來源，從中發現一些潛在的有用的資訊，所以資料探勘又稱作知識發現，而關聯規則挖掘則是資料探勘中的一個很重要的課題，顧名思義，它是從資料背後發現事物之間可能存在的關聯或者聯絡。關聯規則的目的在於在一個數據集中找出項之間的關

【機器學習】資料探勘演算法——關聯規則（二），挖掘過程，Aprioir演算法

關聯規則挖掘的原理和過程從關聯規則（一）的分析中可知，關聯規則挖掘是從事務集合中挖掘出這樣的關聯規則：它的支援度和置信度大於最低閾值（minsup,minconf），這個閾值是由使用者指定的。根據 support=(X,Y).count/T.countsupp

資料探勘導論學習筆記（一）

第一章緒論資料探勘：在大型資料儲存庫中，自動的發現有用資訊的過程。資料庫中知識發現過程（KDD）：輸入資料—>資料預處理---->資料探勘---->後處理---->資訊資料預處理：特徵選擇，維規約，規範集，選擇資料子集後處理：

基於R的資料探勘方法與實踐（3）——決策樹分析

決策樹構建的目的有兩個——探索與預測。探索方面，參與決策樹聲場的資料為訓練資料，待樹長成後即可探索資料所隱含的資訊。預測方面，可以藉助決策樹推匯出的規則預測未來資料。由於需要考慮未來資料進入該模型的分類表現，因此在基於訓練資料構建決策樹之後，可以用測試資料來衡量該模型的穩健

基於R的資料探勘方法與實踐（1）——資料準備

1、資料檢查資料檢查是資料探勘的第1步，從不同的維度檢查資料，找出其中有問題的資料以便對其進行修正。 1.1 資料型別檢視資料的構成與形態，尤其是各列的屬性。 > library(MASS) > data(ChickWeight) > str(Chic

資料探勘十大演算法（一）：決策樹演算法 python和sklearn實現

學完到第三章——決策樹，python程式碼實現的僅是ID3演算法，sklearn為優化過的C4.5，這裡做一個詳細的總結包括（原理、程式碼、視覺化、scikit-learn實現），皆為親自實踐後的感悟。以下進入正文。早前簡單瞭解了決策樹的原理，然後為了儘快使用便沒有深究直

資料探勘十大演算法（九）：樸素貝葉斯 python和sklearn實現

第三個演算法終於算是稍有了解了，其實當你結合資料瞭解了它的實現原理後，你會發現確實很樸素。這裡對樸素貝葉斯演算法做一個介紹和總結，包括（原理、一個程式碼示例、sklearn實現），皆為親自實踐後的感悟，下面進入正文。原理：首先我們需要了解概率論的一些簡單知識：

資料探勘十大演算法（九）：樸素貝葉斯原理、例項與Python實現

一、條件概率的定義與貝葉斯公式二、樸素貝葉斯分類演算法樸素貝葉斯是一種有監督的分類演算法，可以進行二分類，或者多分類。一個數據集例項如下圖所示：現在有一個新的樣本， X = (年齡：<=30, 收入：中，是否學生：是，信譽：中)，目標是利用樸素貝

基於R的資料探勘方法與實踐（2）——關聯規則

關聯規則是從龐大的資料中提取一系列變數或因子間關係，以探索資料的變數或專案間隱含的關係。 1、基本原理關聯規則通常用支援度、置信度、增益三個指標來分別表示其顯著性、正確性和價值。通過給性最小支援度、最小置信度作為門檻值。若該規則的支援度與置信度大於門檻值，則說明該規則有助

資料探勘 | 親和性分析（二）

上回講了親和性分析的簡單分析，但只計算了一條規則的支援度和置信度，現在來說說怎麼計算所有規則的支援度和置信度首先先建立字典，分別建立有效規則字典、無效規則字典以及條件相同的規則數量 # 建立字典，儲存規則有效資料及無效資料 from collection

資料探勘 | 親和性分析（一）

首先解釋一下什麼是親和性舉一個簡單的例子：當顧客在購買一件商品時，往往還會購買另一件商品。比如我們買了麵包就還會買牛奶，買了刀就還會買叉子等等。也就是說，顧客買了商品A，還會購買商品B，這就是親和性的簡單例子那麼，親和性分析就是對這種規律進行分析，商家就

資料探勘-目錄-特徵處理（feature）

Feature Extractors（特徵提取） TF TF-IDF Word2Vec CountVectorizer Feature Transformers（特徵變換） Tokenizer（分詞器）

Thinking in BigData（12）大資料之有指導資料探勘方法模型序（3）

接著上面部落格繼續探討：有指導資料探勘方法模型步驟 5、修復問題資料所有資料都是髒的。所有的資料都是有問題。究竟是不是問題有時可能隨著資料探勘技術的變化而變化。對於某些技術，例如決策樹，缺失值和離群點並不會造成很大的麻煩，但是對於其他技術，

資料探勘入門系列教程（一）之親和性分析

資料探勘入門系列教程（一）之親和性分析教程系列簡介系列地址：https://www.cnblogs.com/xiaohuiduan/category/1661541.html 該教程為入門教程，為博主學習資料探勘的學習路徑步驟。教程為入門教程，從最簡單的開始。使用的程式語言為Pytho

資料探勘入門系列教程（二）之分類問題OneR演算法

資料探勘入門系列教程（二）之分類問題OneR演算法資料探勘入門系列部落格：https://www.cnblogs.com/xiaohuiduan/category/1661541.html 專案地址：GitHub 在上一篇部落格中，我們通過分析親和性來尋找資料集中資料與資料之間的相關關係。這篇部落

資料探勘中的模式發現（五）挖掘多樣頻繁模式

挖掘多層次的關聯規則(Mining Multi-Level Associations)

定義

Level-reduced min-support

group-based “individualized” min-support

Shared multi-level mining

冗餘規則(redundant rules)

挖掘多維度的關聯規則(Mining Multi-Dimensional Associations)

挖掘量化關聯規則(Mining Quantitative Associations)

定義

靜態離散化(static discretization)

資料立方(data cube)

偏差分析(deviation analysis)

挖掘負相關(Mining Negative Correlations)

罕見模式(Rare Pattern)

負模式(Negative Pattern)

基於支援度的定義(support-based definition)

基於Kulczynski測量的定義

負相關關聯規則

相關推薦