關聯規則（Association Rules）python實現

阿新 • • 發佈：2018-12-18

前言

試著用python實現關聯規則（Apriori演算法），在生成關聯規則的時候遇到問題，不知道怎麼遍歷frequent itemsets中的所有關聯規則。轉專業的一隻小菜雞，初學程式碼，寫的很簡陋，希望各位大牛能指出不足之處。

程式碼

輸入是num個隨機長度、隨機字母組合的列表。

通過字典輸出Frequent itemsets，字典的鍵是itemset，值是出現的次數。

import random
import numpy as np

class Association_rules:
	def __init__(self,minSupport=0.2,minConfidence=0.5):
		'''
		minSuport:最小支援度
		minConfidence:最小置信度
		dataset:資料集
		count:存放frequent itemsets 以及 support
		associationRules:滿足minConfidence的關聯規則
		num:元素數量
		threshold = num*minSupport：由num和minSupport算出的閾值
		'''
		self.minSupport = minSupport
		self.minConfidence = minConfidence
		self.dataset = None
		self.count = None
		self.associationRules = None
		self.num = 0
		self.threshold = 0

	#計算frequent itemset
	def countItem(self,upDict,elength):
		currentDict = {}
		element = list(upDict.keys())
		for i in range(len(element)-1):
			for j in range(i+1,len(element)):
				tmp = set(list(element[i]))
				tmp.update(list(element[j]))
				if len(tmp) > elength:
					continue
				if tmp in list(set(item) for item in currentDict.keys()):
					continue
				for item in self.dataset:
					if tmp.issubset(set(item)):
						if tmp in list(set(item) for item in currentDict.keys()):
							currentDict[tuple(tmp)] += 1
						else:
							currentDict[tuple(tmp)] = 1
		for item in list(currentDict.keys()):
			if currentDict[item] < self.threshold:
				del currentDict[item]
				#剪枝
		if len(list(currentDict.keys())) < 1:
			return None
		else:
			return currentDict

	#生成frequent itemsets
	def fit(self,dataset):
		self.dataset = dataset
		count = []
		count.append({})
		for item in self.dataset:
			for i in range(len(item)):
				if item[i] in list(count[0].keys()):
					count[0][item[i]] += 1
				else:
					count[0][item[i]] = 1
					self.num += 1

		self.threshold = self.num * self.minSupport

		for item in list(count[0].keys()):
			if count[0][item] < self.threshold:
				del count[0][item]
				#剪枝
		
		i = 0
		while(True):
			if len(count[i]) < 2:
				break
			else:
				tmp = self.countItem(count[i],i+2)
				if tmp == None:
					break
				else:
					count.append(tmp)
				i += 1

		self.count = count

	def frequentItemsets(self):
		#print('threshold:',self.threshold)
		for item in self.count:
			print(item)
			print()
		return self.count


#初始化資料
def set_data(num):
	dataset = []
	for i in range(num):
		number = random.randint(1,5)
		dataset.append(list(set(chr(ord('a')+random.randint(1,10)) for i in range(number))))
	return dataset


if __name__ == '__main__':
	num = 10
	dataset = set_data(num)
	for item in dataset:
				print(item)
	print()
	ar = Association_rules()
	ar.fit(dataset)
	freItemsets = ar.frequentItemsets()

結果

資料集

['g', 'c', 'i']
['f', 'i']
['f', 'b']
['d', 'i', 'j']
['g', 'e']
['c', 'i', 'b', 'd', 'k']
['k']
['k', 'c', 'b', 'g']
['g', 'k', 'h']
['g', 'i']

Frequent Itemsets

{'g': 5, 'c': 3, 'i': 5, 'f': 2, 'b': 3, 'd': 2, 'k': 4}

{('g', 'c'): 2, ('g', 'i'): 2, ('g', 'k'): 2, ('c', 'i'): 2, ('c', 'b'): 2, ('c', 'k'): 2, ('d', 'i'): 2, ('k', 'b'): 2}

{('k', 'c', 'b'): 2}

問題

因為itemset有不同的長度，因此關聯規則的可能性很多，暫時不知道如何找出一個itemset中的所有關聯規則。

關聯規則（Association Rules）python實現

前言試著用python實現關聯規則（Apriori演算法），在生成關聯規則的時候遇到問題，不知道怎麼遍歷frequent itemsets中的所有關聯規則。轉專業的一隻小菜雞，初學程式碼，寫的很簡陋，希望各位大牛能指出不足之處。程式碼輸入是num個隨機長度、隨機字

關聯規則（Association Rules）學習

關聯規則(Association Rules)是反映一個事物與其他事物之間的相互依存性和關聯性，是資料探勘的一個重要技術，用於從大量資料中挖掘出有價值的資料項之間的相關關係。常見的購物籃分析該過程通過發現顧客放人其購物籃中的不同商品之間的聯絡，分析顧客的購買習慣。通過

支持中文的基於詞為基本粒度的前綴樹（prefix trie）python實現

情況 key -s path join ret int blank ref Trie樹，也叫字典樹、前綴樹。可用於”predictive text”和”autocompletion”。亦可用於統計詞頻（邊插入Trie樹邊更新或加入詞頻）。在計算機科學中。

《機器學習》周志華學習筆記第四章決策樹（課後習題）python 實現

一、基本內容 1.基本流程決策樹的生成過程是一個遞迴過程，有三種情形會導致遞迴返回（1）當前節點包含的yangben全屬於同一類別，無需劃分；（2）當前屬性集為空，或是所有yangben在所有屬性上的取值相同，無法劃分；（3）當前結點包含的yangben集合為空，不能

《機器學習》周志華學習筆記第三章線性模型（課後習題）python 實現

線性模型一、內容 1.基本形式 2.線性迴歸：均方誤差是迴歸任務中最常用的效能度量 3.對數機率迴歸：對數機率函式（logistic function）對率函式是任意階可導的凸函式，這是非常重要的性質。 4.線性判別分析（LDA 是一種降維的方法） 5.多分類學習：

《機器學習》周志華學習筆記第八章整合學習（課後習題）python實現

1.個體與整合 1.1同質整合 1.2異質整合 2.boosting:代表AdaBoost演算法 3.Bagging與隨機森林 3.1Bagging 是並行式整合學習方法最著名的代表（基於自主取樣法bootstrap sampling）自己學習時編寫了

《機器學習》周志華學習筆記第六章支援向量機（課後習題）python 實現

一、 1.間隔與支援向量 2.對偶問題 3.核函式 xi與xj在特徵空間的內積等於他們在原始yangben空間中通過函式k(.,.)計算的結果。核矩陣K總是半正定的。 4.軟間隔與正則化軟間隔允許某些samples不滿足約束鬆弛變數 5.支援

《機器學習》周志華學習筆記第五章神經網路（課後習題） python實現

1.神經元模型 2.感知機與多層網路 3.誤差逆傳播演算法 (A)BP演算法：最小化訓練集D上的累積誤差標準BP演算法：更新規則基於單個Ek推導而得兩種策略防止過擬合：（1）早停（通過驗證集來判斷，訓練集誤差降低，驗證集誤差升高）（2）正則化：在誤差目標函式中引入描述網

《機器學習》周志華學習筆記第七章貝葉斯分類器（課後習題）python 實現

課後習題答案 1.試用極大似然法估算西瓜集3.0中前3個屬性的類條件概率。好瓜有8個，壞瓜有9個屬性色澤，根蒂，敲聲，因為是離散屬性，根據公式（7.17） P(色澤=青綠|好瓜=是) = 3/8 P(色澤=烏黑|好瓜=是) = 4/8 P(色澤=淺白|好瓜=是) =

《機器學習》周志華學習筆記第十四章概率圖模型（課後習題）python實現

一、基本內容 1.隱馬爾可夫模型 1.1. 假定所有關心的變數集合為Y,可觀測變數集合為O,其他變數集合為R, 生成式模型考慮聯合分佈P(Y,R,O),判別式模型考慮條件分佈P(Y,R|O)，給定一組觀測變數值，推斷就是要由P(Y,R,O)或者P(Y,R|O)得到條件概率分佈P(Y,

反向傳播（BP演算法）python實現

反向傳播（BP演算法）python實現 1、BP演算法描述 BP演算法就是反向傳播，要輸入的資料經過一個前向傳播會得到一個輸出，但是由於權重的原因，所以其輸出會和你想要的輸出有差距，這個時候就需要進行反向傳播，利用梯度下降，對所有的權重進行更新，這樣的話在進行前向傳播就會發現其輸

幾種歸一化方法（Normalization Method）python實現

資料歸一化問題是資料探勘中特徵向量表達時的重要問題，當不同的特徵成列在一起的時候，由於特徵本身表達方式的原因而導致在絕對數值上的小資料被大資料“吃掉”的情況，這個時候我們需要做的就是對抽取出來的features vector進行歸一化處理，以保證每個特徵被分類器平等對待。

字串相乘（大數相乘） python實現

首先講解兩個小技巧 list 反轉 reverse >>> l=[1,2,3,4,5,6] >>> l.reverse() >>> l [6, 5, 4, 3, 2, 1] str 反轉 [::-1] >>

關聯規則，Apriori演算法及python實現

1 關聯規則關聯分析一個典型的例子是購物籃分析，廣泛應用於零售業，通過檢視那些商品經常在一起購買，可以幫助商店瞭解使用者的購買行為。一個最有名的例子是“尿布與啤酒”，據報道，美國中西部的一家連鎖店發現，男人們會在週四購買尿布和啤酒，這樣商家實際上就可以將尿布

01揹包問題（動態規劃）python實現

在01揹包問題中，在選擇是否要把一個物品加到揹包中，必須把該物品加進去的子問題的解與不取該物品的子問題的解進行比較，這種方式形成的問題導致了許多重疊子問題，使用動態規劃來解決。n=5是物品的數量，c=10是書包能承受的重量，w=[2,2,6,5,4]是每個物

Python的學習（三十） ---- Python實現檔案md5校驗

Linux下校驗檔案MD5值，最簡單的方法就是執行md5sum命令 md5sum filename 原本打算用subprocess呼叫系統命令來獲取md5值， import subprocess,shlex cmd = "md5sum filename" p = subpr

支援中文的基於詞為基本粒度的字首樹（prefix trie）python實現

Trie樹，也叫字典樹、字首樹。可用於”predictive text”和”autocompletion”，亦可用於統計詞頻（邊插入Trie樹邊更新或新增詞頻）。在電腦科學中，trie，又稱字首樹或字典樹，是一種有序樹，用於儲存關聯陣列，其中的鍵通常是字串。與二叉查詢

機器學習演算法（一）——關聯規則Apriori演算法及R語言實現方法

關聯規則演算法算是一種十分常用的機器學習演算法，無論是面試還是日後工作中都會經常出現，那麼本篇小博就記錄一下自己學習關聯規則經典演算法Apriori的筆記。 1、概述 Apriori演算法是用一種稱為逐層搜尋的迭代方法，從項集長度k=1開始，選出頻繁的k=1項集，根據先驗性

個性化推薦系統原理介紹（基於內容過濾／協同過濾／關聯規則／序列模式）

信息來講行為記錄鏈接方程機器學習沒有比較 graph 個性化推薦根據用戶興趣和行為特點，向用戶推薦所需的信息或商品，幫助用戶在海量信息中快速發現真正所需的商品，提高用戶黏性，促進信息點擊和商品銷售。推薦系統是基於海量數據挖掘分析的商業智能平臺，推薦主要基

（24）Python實現遞歸生成或者刪除一個文件目錄及文件

path 生成 std fun created elif ror spa else import os,errno #基本工具類 #①遞歸生成輸入的路徑下面的文件夾或文件 #②遞歸刪除輸入的路徑下面的文件夾及文件 ‘‘‘ param : dirPath return :

關聯規則（Association Rules）python實現

前言

程式碼

結果

問題

相關推薦