資料探勘---關聯規則---ECLAT演算法

阿新 • • 發佈：2019-01-08

關聯規則用於發現交易資料中，不同商品之間的關係，這些規則反映了顧客的購買行為模式。如顧客經常在購買A商品的時候也會購買B商品，著名的“啤酒與尿布”的案例就是關聯規則的成功應用案例

導語

不同於Apriori和FP演算法所採用的按照交易事務來水平劃分項集的資料探勘方式，把資料集中的項劃歸到每個事務下，ECLAT演算法採用了另一種思路：把資料集中的事務劃歸到每個項下。本文采用如下資料：

	A;B;E;
	B;D;
	B;C;
	A;B;D
	A;C;
	B;C;
	A;C;
	A;B;C;E;
	A;B;C;

下表左邊為Apriori、FP演算法所採用的資料結構，右邊是ECLAT演算法所採用的資料結構兩部分：

事務	項	項	事務
T1	A;B;E	A	T1;T4;T5:T7;T8;T9
T2	B;D	B	T1;T2;T3;T4;T6;T8;T9
T3	B;C	C	T3;T5;T6;T7;T8;T9
T4	A;B;D	D	T2;T4
T5	A;C	E	T1;T8
T6	B;C
T7	A;C
T8	A;B;C;E
T9	A;B;C

演算法介紹

ECLAT演算法把資料庫事務劃歸到每個項下，使得該演算法相較於Apriori和FP-Growth演算法可以基於集合運算更簡便的得到頻繁項集，該演算法得到頻繁項集的基本思路如下：

首先對資料庫進行一次遍歷，生成項對應的事務集，如上圖左上角表格T1。

然後把所有項作為一個集合I_all，求該集合的子集,設第i個子集為I_i,如上圖中橘黃色箭頭指示的集合列表。
對每個子集I_i中的項對應的事務集合求交集為T_i，如上圖藍色箭頭指示的集合列表
T_i中元素個數大於閥值的集合，即為頻繁項集。

如果設定頻繁項的頻次閥值為2，則上圖中紅色的集合為頻繁項集。

簡單實現

ECLAT 演算法只需要一次資料庫的遍歷，生成以項（item）為key，以出現該item的交易事務Id所組成的集合為value的map。然後頻繁項集就可以基於該map獲取到。其獲取頻繁項集的實現程式碼如下：

package association;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Set;

import set.SetUtils;

public class ECLAT {
	public static String SPLIT = ";";
	public static int F = 2;
	public static double C = 0.7;

	public static List<String> transList = new ArrayList<String>();

	static {
		transList.add("T1;A;B;E;");
		transList.add("T2;B;D;");
		transList.add("T3;B;C;");
		transList.add("T4;A;B;D;");
		transList.add("T5;A;C;");
		transList.add("T6;B;C;");
		transList.add("T7;A;C;");
		transList.add("T8;A;B;C;E;");
		transList.add("T9;A;B;C;");
	}


	private Map<String,Set<String>> datas;


	private void etl(){
		datas = new HashMap<String, Set<String>>();
		for (String string : transList) {
			String[] records = string.split(SPLIT);
			for(int i = 1;i<records.length;i++){
				if(!datas.containsKey(records[i])){
					datas.put(records[i],new HashSet<String>());
				}
				datas.get(records[i]).add(records[0]);
			}
		}
	}

	public List<String> getFItems(){
		etl();
		Set<String> keys = datas.keySet();
		Set<String> items = new HashSet<String>();
		items.addAll(keys);
		ArrayList<Set<String>> subsets = SetUtils.getSubset(items);
		Set<String> tmp = new HashSet<String>();
		List<String> fItems = new ArrayList<String>();
		for (Set<String> set : subsets) {
			tmp.clear();
			Iterator<String> it = set.iterator();
			if(it.hasNext()){
				tmp.addAll(datas.get(it.next()));
				while(it.hasNext() && tmp.size()>=F){
					tmp.retainAll(datas.get(it.next()));
				}
			}
			if(tmp.size()>=F){
				fItems.add(set.toString()+":"+tmp.size());
			}
		}
		return fItems;
	}

	public static void main(String[] args) {
		ECLAT eclat = new  ECLAT();
	
		List<String> fItems = eclat.getFItems();
		for (String string : fItems) {
			System.out.println(string);
		}
	}
}

說明：轉載自http://westerly-lzh.github.io/cn/2015/09/DM003-ECLAT/

上面的網址似乎需要翻牆，為了更加方便檢視，所以就複製了下內容。

資料探勘---關聯規則---ECLAT演算法

關聯規則用於發現交易資料中，不同商品之間的關係，這些規則反映了顧客的購買行為模式。如顧客經常在購買A商品的時候也會購買B商品，著名的“啤酒與尿布”的案例就是關聯規則的成功應用案例導語不同於Apriori和FP演算法所採用的按照交易事務來水平劃分項集的資料探勘方式，把資料

深度解析資料探勘關聯規則Apriori演算法

01、關聯規則挖掘背景和基本概念如下所示的資料集，表中的每一行代表一次購買清單，注意我們只關心記錄出現與否，不關心某條記錄購買了幾次，如購買十盒牛奶也只計一次。資料記錄的所有項的集合稱為總項集，上表中的總項集： S={牛奶,麵包,尿布,啤酒,雞蛋,可樂} 關聯規則就是有關聯的規則，形式

[資料探勘]關聯規則學習筆記

關聯規則參考資料：《資料探勘導論》人民郵電出版社Pang-Ning Tan等著關聯規則是形如X→Y 的蘊含表示式，其中X和Y是不相交的項集。即X∩Y=∅。關聯規則的強度可以用它的支援度（support）和置信度（confidence）度

資料探勘——關聯演算法

一、概念關聯（Association）關聯就是把兩個或兩個以上在意義上有密切聯絡的項組合在一起。關聯規則（AR，Assocaition Rules）用於從大量資料中挖掘出有價值的資料項之間的相關關係。（購物籃分析）協同過濾（CF，Collaborative Filtering）協同過濾

資料探勘十大經典演算法之K-means 演算法

K-means演算法（非監督性學習） 1.演算法思想 k-means演算法是一種簡單的迭代型聚類演算法，採用距離作為相似性指標，從而發現給定資料集中的K個類，且每個類的中心是根據類中所有值的均值得到，每個類

資料探勘十大經典演算法之KNN演算法

KNN演算法（監督性學習） 1.演算法思想 KNN是通過測量不同特徵值之間的距離進行分類。它的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別，其

資料探勘——關聯分析

前言關聯規則是人類認知客觀事物形成的一種認知模式。人們可以從龐大的事物個體中發現一個或者多個的關聯。從而建立出關聯規則。就像一個因果關係一樣，就像我們看到惡狗就想到可能會咬人（本人對狗無惡意），按下開關的按鈕燈就會開。這些事物本身是沒有聯絡的。但是人們可以

基於.NET實現資料探勘--聚類分析演算法

http://www.cnblogs.com/captain_ccc/articles/4093615.html 本篇文章主要採用另外一種分析演算法對目標顧客群體的挖掘，同樣的利用微軟案例資料進行簡要總結。應用場景介紹通過上一篇中我們採用Microsoft決策

資料探勘十大經典演算法原理

資料探勘十大經典演算法一、 C4.5 C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3 演算法. C4.5演算法繼承了ID3演算法的優點，並在以下幾方面對ID3演算法進行了改進： 1) 用資訊增益率來選擇屬性，克服了

資料探勘十大經典演算法(九) 樸素貝葉斯分類器 Naive Bayes

分類演算法--------貝葉斯定理：樸素貝葉斯的基本思想：對於給出的待分類項，求解在此項出現的條件下各個類別出現的概率，哪個最大，就認為此待分類項屬於哪個類別。可以看到，整個樸素貝葉斯分類分為三個階段：第一階段——準備工作階段，這個階段的任務是為樸

資料探勘 --- Python實現KNN演算法專案-約會推薦演算法

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

資料探勘十大經典演算法（詳解）

資料探勘十大經典演算法一、 C4.5 C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3 演算法. C4.5演算法繼承了ID3演算

資料探勘十大經典演算法

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了資料探勘領域的十大經典演算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, Ada

資料探勘十大經典演算法--CART: 分類與迴歸樹

一、決策樹的型別在資料探勘中，決策樹主要有兩種型別: 分類樹的輸出是樣本的類標。迴歸樹的輸出是一個實數 (例如房子的價格，病人呆在醫院的時間等)。術語分類和迴歸樹 (CART) 包含了上述兩種決策樹, 最先由Breiman 等提出.分類樹和迴歸樹有些共同點和不同

R語言學習系列(資料探勘之決策樹演算法實現--ID3程式碼篇)

轉載自：http://blog.csdn.net/hawksoft/article/details/7760868 1、輔助類，用於計算過程和結果儲存 [csharp] view plaincopyprint? /// &

資料探勘十大經典演算法簡介

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月在香港評選出了資料探勘領域的十大經典演算法：C4.5, k-Means, SVM, Apriori, EM, PageRank,

資料探勘：Apriori(先驗)演算法

介紹先驗(Apriori)演算法是挖掘關聯式規則(Association Rules)的經典演算法之一。它的作用就是用來尋找資料當中的強關聯式規則(Strong Association Rules)。強關聯式規則是滿足最低支援度(minimum su

資料探勘18種候選演算法和十大經典演算法

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006（香港召開）年12月評選出了資料探勘領域的十大經典演算法。不僅僅是選中的十大演算法，其實參加評選的18種演算法，實際上隨便

機器學習（資料探勘十個重要演算法）

資料探勘中常用的十個重要演算法一、 C4.5 C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3 演算法. C4.5演算法繼承了ID3演算法的長處。並在下面幾方面對ID3演算法進行了改進： 1) 用資訊增益率來選擇屬性，克服了用資訊增

走在前往架構師的路上（專注於分散式計算，大資料，資料探勘，機器學習演算法等領域的研究）

新書<<深度剖析Hadoop HDFS>>釋出上市，此書源自於筆者部落格，重新經過整理，完善而成，此書的定位並不是一本純原始碼分析的書籍，其中有許多筆者在工作和學習中對於HDFS的一些有趣的看法和理解。連結：淘寶京東 (adsbygoog

資料探勘---關聯規則---ECLAT演算法

導語

演算法介紹

簡單實現

相關推薦