1. 程式人生 > >python實現Apriori演算法

python實現Apriori演算法

Apriori演算法

兩個概念:

支援度:A、B同時發生的概率

置信度:若A發生,B發生的概率

Apriori演算法的實現

  1. 設定閾值:最小支援度和最小置信度
  2. 計算支援度:Supprot(A=>B)=(A與B同時發生的數量)/事件的總數

                                                            =Support_count(A and B)/Total_count(A)

          置信度:Confidence(A=>B)  =  P(B|A) = supprot(a and b)/support(a)

                                                                       =  Support_count(A and B)/ support(a)

   3、篩選

   4、繼續計算

Python實現的apriori演算法和所使用的資料見:Apriori.py + 測試資料

Python實現的apriori演算法和所使用的資料見:
#Apriori演算法計算購買課程的關聯性
from apriori import *
import pandas as pda
import xlrd
filename='E:\\programCode\\lesson_buy.xlsx'
dataframe=pda.read_excel(filename,header=None)#引數header將讀取的表格去掉表頭,第一條紀錄也成為資料
#轉化一下資料
change=lambda x:pda.Series(1,index=x[pda.notnull(x)])
mapok=map(change,dataframe.as_matrix())
data=pda.DataFrame(list(mapok)).fillna(0)
print(data)

#設定臨界支援度、置信度
spt=0.1
cfd=0.3
#計算關聯結果
find_rule(data,spt,cfd,'&&')