Apriori演算法Java實現示例

阿新 • • 發佈：2019-01-23

package xx;

import java.util.HashMap;
import java.util.HashSet;
import java.util.Iterator;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import java.util.Set;
import java.util.TreeMap;
import java.util.TreeSet;

public class Apriori {

	public static void main(String[] args) throws Exception {

		// 初始化事務集
		List<Set<String>> trans = new LinkedList<Set<String>>();
		trans.add(new ItemSet(new String[] { "I1", "I2", "I5" }));
		trans.add(new ItemSet(new String[] { "I2", "I4" }));
		trans.add(new ItemSet(new String[] { "I2", "I3" }));
		trans.add(new ItemSet(new String[] { "I1", "I2", "I4" }));
		trans.add(new ItemSet(new String[] { "I1", "I3" }));
		trans.add(new ItemSet(new String[] { "I2", "I3" }));
		trans.add(new ItemSet(new String[] { "I1", "I3" }));
		trans.add(new ItemSet(new String[] { "I1", "I2", "I3", "I5" }));
		trans.add(new ItemSet(new String[] { "I1", "I2", "I3" }));

		int MSF = 2; // 設定最小支援頻次為2

		Map<Integer, Set<ItemSet>> rst = findFrequentItemSets(trans, MSF);

		// 輸出頻繁項集
		System.out.println("Frequent Item Sets:");
		for (Entry<Integer, Set<ItemSet>> entry : rst.entrySet()) {
			Integer itemSetSize = entry.getKey();
			System.out.printf("Frequent %d Item Sets:\n", itemSetSize);
			for (ItemSet set : entry.getValue())
				System.out.printf("%s, %d\n", set, set.frequence);
		}

		double MCONF = 0.6; // 設定最小置信度為60%

		Map<ItemSet, ItemSet> directMap = new HashMap<ItemSet, ItemSet>();
		for (Entry<Integer, Set<ItemSet>> entry : rst.entrySet()) {
			for (ItemSet set : entry.getValue())
				directMap.put(set, set);
		}

		// 根據頻繁項集構造關聯規則
		System.out.println();
		System.out.println("Association Rules:");
		for (Entry<Integer, Set<ItemSet>> entry : rst.entrySet()) {
			for (ItemSet set : entry.getValue()) {
				double cnt1 = directMap.get(set).frequence;
				List<ItemSet> subSets = set.listNotEmptySubItemSets();
				for (ItemSet subSet : subSets) {
					int cnt2 = directMap.get(subSet).frequence;
					double conf = cnt1 / cnt2;
					if (cnt1 / cnt2 >= MCONF) {
						ItemSet remainSet = new ItemSet();
						remainSet.addAll(set);
						remainSet.removeAll(subSet);
						System.out.printf("%s => %s, %.2f\n", subSet,
								remainSet, conf);
					}
				}
			}
		}
	}

	/**
	 * 查詢事務集中的所有頻繁項集，返回Map為：L -> 所有頻繁L項集的列表
	 */
	static Map<Integer, Set<ItemSet>> findFrequentItemSets(
			Iterable<Set<String>> transIterable, int MSF) {
		Map<Integer, Set<ItemSet>> ret = new TreeMap<Integer, Set<ItemSet>>();

		// 首先確定頻繁1項集
		Iterator<Set<String>> it = transIterable.iterator();
		Set<ItemSet> oneItemSets = findFrequentOneItemSets(it, MSF);
		ret.put(1, oneItemSets);

		int preItemSetSize = 1;
		Set<ItemSet> preItemSets = oneItemSets;

		// 基於獲得的所有頻繁L-1項集迭代查詢所有頻繁L項集，直到不存在頻繁L-1項集
		while (!preItemSets.isEmpty()) {
			int curItemSetSize = preItemSetSize + 1;

			// 獲取頻繁L項集的所有候選L項集
			List<ItemSet> candidates = aprioriGenCandidates(preItemSets);

			// 掃描事務集以確定所有候選L項集出現的頻次
			it = transIterable.iterator();
			while (it.hasNext()) {
				Set<String> tran = it.next();
				for (ItemSet candidate : candidates)
					if (tran.containsAll(candidate))
						candidate.frequence++;
			}

			// 將出現頻次不小於最小支援頻次的候選L項集選為頻繁L項集
			Set<ItemSet> curItemSets = new HashSet<ItemSet>();
			for (ItemSet candidate : candidates)
				if (candidate.frequence >= MSF)
					curItemSets.add(candidate);
			if (!curItemSets.isEmpty())
				ret.put(curItemSetSize, curItemSets);

			preItemSetSize = curItemSetSize;
			preItemSets = curItemSets;
		}
		return ret;
	}

	/**
	 * 掃描事務集以確定頻繁1項集
	 */
	static Set<ItemSet> findFrequentOneItemSets(Iterator<Set<String>> trans,
			int MSF) {

		// 掃描事務集以確定各個項出現的頻次
		Map<String, Integer> frequences = new HashMap<String, Integer>();
		while (trans.hasNext()) {
			Set<String> tran = trans.next();
			for (String item : tran) {
				Integer frequence = frequences.get(item);
				frequence = frequence == null ? 1 : frequence + 1;
				frequences.put(item, frequence);
			}
		}

		// 用每個出現頻次不小於最小支援頻次的項構造一個頻繁1項集
		Set<ItemSet> ret = new HashSet<ItemSet>();
		for (Entry<String, Integer> entry : frequences.entrySet()) {
			String item = entry.getKey();
			Integer frequence = entry.getValue();
			if (frequence >= MSF) {
				ItemSet set = new ItemSet(new String[] { item });
				set.frequence = frequence;
				ret.add(set);
			}
		}
		return ret;
	}

	/**
	 * 根據所有頻繁L-1項集獲得所有頻繁L項集的候選L項集
	 */
	static List<ItemSet> aprioriGenCandidates(Set<ItemSet> preItemSets) {
		List<ItemSet> ret = new LinkedList<ItemSet>();

		// 嘗試將所有頻繁L-1項集兩兩連線然後作剪枝處理以獲得候選L項集
		for (ItemSet set1 : preItemSets) {
			for (ItemSet set2 : preItemSets) {
				if (set1 != set2 && set1.canMakeJoin(set2)) {

					// 連線
					ItemSet union = new ItemSet();
					union.addAll(set1);
					union.add(set2.last());

					// 剪枝
					boolean missSubSet = false;
					List<ItemSet> subItemSets = union.listDirectSubItemSets();
					for (ItemSet itemSet : subItemSets) {
						if (!preItemSets.contains(itemSet)) {
							missSubSet = true;
							break;
						}
					}
					if (!missSubSet)
						ret.add(union);
				}
			}
		}
		return ret;
	}

	/**
	 * 由多個項組成的項集，每個項是一個字串。使用TreeSet使項集中的項有序，以輔助演算法實現
	 */
	static class ItemSet extends TreeSet<String> {

		private static final long serialVersionUID = 23883315835136949L;

		int frequence; // 項集出現的頻次

		public ItemSet() {
			this(new String[0]);
		}

		public ItemSet(String[] items) {
			for (String item : items)
				add(item);
		}

		/**
		 * 測試本項集（假定階為L-1）能否與別一個項集連線以生成L階項集
		 */
		public boolean canMakeJoin(ItemSet other) {

			// 若兩個項集的階不同，則不能連線生成L階項集
			if (other.size() != this.size())
				return false;

			// 假定項集的階為L-1，在項有序的前提下，當且僅當兩個項集的前L-2個項相同
			// 而本項集的第L-1個項小於另一個項集的第L-1個項時，可以連線生成L階項集
			Iterator<String> it1 = this.iterator();
			Iterator<String> it2 = other.iterator();
			while (it1.hasNext()) {
				String item1 = it1.next();
				String item2 = it2.next();
				int result = item1.compareTo(item2);
				if (result != 0) {
					if (it1.hasNext())
						return false;
					return result < 0 ? true : false;
				}
			}
			return false;
		}

		/**
		 * 假定本項集的階為L，列舉本項集的所有階為L-1的子項集
		 */
		public List<ItemSet> listDirectSubItemSets() {
			List<ItemSet> ret = new LinkedList<ItemSet>();

			// 只有本項集的階大於1，才可能存在非空子項集
			if (size() > 1) {
				for (String rmItem : this) {
					ItemSet subSet = new ItemSet();
					subSet.addAll(this);
					subSet.remove(rmItem);
					ret.add(subSet);
				}
			}

			return ret;
		}

		/**
		 * 列出本項集除自身外的所有非空子項集
		 */
		public List<ItemSet> listNotEmptySubItemSets() {
			List<ItemSet> ret = new LinkedList<ItemSet>();
			int size = size();
			if (size > 0) {
				char[] mapping = new char[size()];
				initMapping(mapping);
				while (nextMapping(mapping)) {
					ItemSet set = new ItemSet();
					Iterator<String> it = this.iterator();
					for (int i = 0; i < size; i++) {
						String item = it.next();
						if (mapping[i] == '1')
							set.add(item);
					}
					if (set.size() < size)
						ret.add(set);
				}
			}
			return ret;
		}

		private void initMapping(char[] mapping) {
			for (int i = 0; i < mapping.length; i++)
				mapping[i] = '0';
		}

		private boolean nextMapping(char[] mapping) {
			int pos = 0;
			while (pos < mapping.length && mapping[pos] == '1') {
				mapping[pos] = '0';
				pos++;
			}
			if (pos < mapping.length) {
				mapping[pos] = '1';
				return true;
			}
			return false;
		}
	}
}

Apriori演算法Java實現示例

package xx; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.LinkedList; import java.util

GIS資訊關聯規則挖掘——Apriori演算法的實現（下）

上篇說明了原理，這篇就直接上核心程式碼了~ 程式碼比較長，所以理解可能有點麻煩，核心思路就是計算選擇的維度後遍歷資料，逐步進行迴圈計算置信度，並淘汰每次迴圈後的最低值。這裡有一點要注意的，我一開始想用arraylist構造一個堆疊結構進行資料遍歷的儲存跟計算，因為這樣效率比較高。

GIS資訊關聯規則挖掘——Apriori演算法的實現（上）

最近閒著無聊沒啥課，幫讀master的朋友做了一個桌面端的GIS系統，主要功能是景區管理。其中有個核心功能挺有意思的，就是統計所有景區受損設施的所有致損型別和每個型別具體包含的致損因子後，計算致損因子之間的關聯規則，然後可以根據使用者選定的致損型別組合計算出其景區設施造成損害的概率。（有點

基本排序演算法-java實現

最近重新學習了排序演算法，之前每次看完當時理解了，但是過一段時間就又忘了，尤其是程式碼，如果放一段時間有很多base case不知道怎麼寫了，所以還是應該詳細的解讀一下再不斷了敲程式碼才能理解比較深刻。 1.氣泡排序（bubble sort）氣泡排序是一種簡單的排序演算法。其基本思

小白向Apriori演算法Python實現

　　參考部落格：http://www.cnblogs.com/llhthinker/p/6719779.html 　　　　學習的別人的程式碼，用Python實現的Apriori演算法，演算法介紹見https://www.cnblogs.com/1113127139aaa/p/9926507.html

編輯距離演算法Java實現

/** * 計算編輯距離Edit Distance * if i == 0 且 j == 0，edit(i, j) = 0 * if i == 0 且 j > 0，edit(i, j) = j * if i > 0 且j == 0，edit(i,

分散式ID 雪花演算法JAVA實現

少年不想寫，來吧：https://github.com/singgel/SnowFlake snowflake的結構如下(每部分用-分開): 概述分散式系統中，有一些需要使用全域性唯一ID的場景，這種時候為了防止ID衝突可以使用36位的UUID，但是UUID有一些缺點，首先他相對比

氣泡排序演算法java實現

package algorithm; /** * 氣泡排序演算法 * @author su * */ public class BubbleSort { public static void main(String[] args) { int[] a = {6,2,5,4,7,1,

0-1揹包問題—回溯演算法—java實現

0-1揹包問題【問題描述】有n種可選物品1，…，n ，放入容量為c的揹包內，使裝入的物品具有最大效益。表示 n ：物品個數 c ：揹包容量 p1,p2, …, pn：個體物品效益值 w1,w2, …，wn：個體物品容量【問題解析】 0-1揹包問題的解指：物品1,…,n的一種放

推特雪花演算法 java實現

package twiter.snowflake; /** * twitter的snowflake演算法 -- java實現 */ public class SnowFlake { /** * 起始的時間戳 */ private final static long

最小生成樹Prim演算法java實現

package prim; import java.util.*; public class PrimTest { public static void main(String[] args) { //互動輸入圖的鄰接矩陣表示，為方便測試，直接給定了鄰接矩陣值 // System

Dijkstra演算法-Java實現

給定n個城市，並建立一個n*n的距離矩陣來存放兩兩城市之間的距離，當兩個城市之間不能直達時，將距離記為無窮大。對矩陣進行初始化： for (int i = 0; i < N; i++) { for (int j = 0; j < N; j++) {

反轉連結串列演算法Java實現

之前遇到反轉連結串列的演算法，比較晦澀難解，但其實挺簡單的。目標：將一個順序連結串列反轉。思路：用三個輔助節點，每次實現一個節點的指向反轉，即他的後繼變為他的前驅。三個輔助節點： p q r&n

【資料結構與演算法-java實現】二複雜度分析（下）：最好、最壞、平均、均攤時間複雜度的概念

上一篇文章學習了：如何分析、統計演算法的執行效率和資源消耗？點選連結檢視上一篇文章：複雜度分析上今天的文章學習以下內容：最好情況時間複雜度最壞情況時間複雜度平均情況時間複雜度均攤時間複雜度 1、最好與最壞情況時間複雜度我們首先

6種排序演算法java實現

6種排序演算法氣泡排序選擇排序插入排序計數排序快速排序歸併排序 1）氣泡排序相鄰的兩個數字比較排序，先將最大的交換到最後面，然後重複。程式碼實現 2）選擇排序從第一個位置開始，用某個位置依次與後邊所有元

連結串列排序演算法java實現（連結串列的快速排序、插入排序、歸併排序）

難易程度：★★ 重要性：★★★ 連結串列的排序相對陣列的排序更為複雜些，也是考察求職者是否真正理解了排序演算法（而不是“死記硬背”）連結串列的插入排序 public class LinkedInsertSort { static cla

經典排序演算法 — java 實現

排序演算法的好壞對於效率的影響十分顯著。好的排序演算法排序100萬個整數可能只需要一秒（不考慮硬體因素），不好的排序演算法可能需要一個小時甚至幾個小時。常見的排序演算法有氣泡排序、插入排序、堆排序、快速排序等，這些排序都屬於基於比較的排序，因此這些演算法的時間

Dijkstra演算法 java實現

import java.util.HashMap; import java.util.HashSet; import java.util.Map.Entry; /** * * Dijkstra演算法 * 適用範圍：沒有權值為負數的邊 * */ // no ne

KMP演算法java實現

package algorithm; public class KmpSearch { public static void main(String[] args) { String s1 = "ABABCABAA"; char[] pattern = s1.to

常見排序演算法Java實現

目前最經典的排序演算法要屬：氣泡排序，快速排序，簡單插入排序，希爾排序，簡單選擇排序，堆排序，二路歸併排序，多路鬼並排序，計數排序，桶排序，基數排序。以下就是這些常見演算法的Java實現，有興趣的可以自行實現。現在我們就來一個個分析介紹一下各自的基礎思想和實現。講解這些演

Apriori演算法Java實現示例

相關推薦