基於關聯規則的推薦-獲取頻繁項集

阿新 • • 發佈：2019-01-11

關聯規則：

關聯規則是形如X->Y的蘊含表示式,其中X和Y是不相交的項集,即X∩Y=∅。

關聯規則的強度可以用它的支援度(support)和置信度(confidence)來度量

支援度確定規則可以用於給定資料集的頻繁程度（能夠關聯的次數）
置信度確定Y在包含X的交易中出現的頻繁程度（能夠成功關聯的次數）

    支援度s和置信度c的形式定義如下：

        ||--> ·s(X->Y)=σ(X∪Y)/N
        ||--> ·c(X->Y)=σ(X∪Y)/σ(X)

        因此，大多數關聯規則挖掘演算法通常採用的一種策略是：

將關聯規則挖掘任務分解為如下兩個主要的子任務：

1.頻繁項集的產生：

    其目標是發現滿足最小值尺度閾值的所有項集，這些項集稱作頻繁項集(frequent itemset)

2.規則的產生：

    其目標是從上一步發現的頻繁項集中提取所有高置信度的規則，這些規則稱作強規則(strong rule)

顯而易見。頻繁項集的產生所需要的計算開銷遠大於產生規則所需的計算開銷。

使用Apriori演算法獲取頻繁項集

暴力挖取：

最容易想到的、也是最直接的關聯關係挖掘的方法或許就是暴力搜尋    (Brute-force)的方法。

但是暴力的計算量過大，一個包含k個項的資料集可能產生2^k-1個      頻繁項集。

發現頻繁項集的一種原始方法是確定每一個候選項集(candidate -itemset)的支援度計數。為了完成這一任務，必須將每個候選項集與每個交易進行比較。

如果候選項集包含在交易中則候選集的支援度計數增加。

複雜度O(NMω),N是交易數,M=2^k-1是候選項集數，而ω是交易的最大寬度(也就是交易中最大的項數)

先驗原理：

    對於本身複雜度極高的Brute-force，我們必須設法降低產生頻繁項集的計算複雜度。此時我們可以利用支援度對候選項集進行剪枝。

Apriori定律1：

如果一個集合是頻繁項集，則它所有的子集都是頻繁項集。

Apriori定律2：

如果一個集合不是頻繁項集，則它的所有的超集都不是頻繁項集。

剪枝原則：

依據apriori定律2，當一個集合不是頻繁項集時，剪除所有向下的集合。

頻繁項集的產生：

R.Agrawal 和 R. Srikant於1994年在文獻中提出了Apriori演算法，該演算法的描述如下：

·Let k=1
        ·Generate frequent itemsets of length k
        ·Repeat until no new frequent itemsets are identified 
              ·Generate length (k+1) candidate itemsets from length k frequent itemsets
              ·Prune candidate itemsets containing subsets of length k+1 that are infrequent
              ·Count the support of each candidate by scanning the DB
·Eliminate candidates that are infrequent, leaving only those that are frequent

D為總集
1.建立頻繁-1-項集
2.for k=2 頻繁-k-項集不為空
                從頻繁-k-1-項集中產生候選-K-項集
                計算候選-k-項集的支援度計數
                去除小於支援度計數閾值的集合
                返回頻繁-k-項集
3.返回頻繁項集

        產生候選項集：
            從頻繁-k-1項集中挑選兩項，使得：
                前k-2項相同
            合併這兩項

        計算支援度計數：
            for 所有的事務 in D：
                產生這個事務的子集集合
                判斷候選項集是否屬於這個子集

===========================================================

使用FP-Growth演算法獲取頻繁項集

Apriori演算法的缺點在於，過多的重複掃描資料庫。而另一種方法可以避免這種情況。

FP-Growth演算法是一種基於FP-Tree(Frequent Pattern Tree)的演算法。
演算法使用遞迴解決多個子問題的方式來產生頻繁項集，相比apriori也更容易實現。

FP-Tree Frequent Pattern Tree | 頻繁模式樹：

    Frequent pattern tree是一種字首樹，它可以看做是所有事務的投影。

    建樹方法：insert_fp_tree(p|P,T)

        首先我們統計出所有的頻繁一項集。
        然後對所有的事務進行過濾和排序(降序)。
        把每一條事務看作是(頭|字尾)的形式，字尾可以為空。
        然後遞迴的呼叫insert_fp_tree()
            每次進行判斷:
                若當前結點的兒女中有p，那麼這個兒女的頻繁度+1
                若沒有，新建這個兒女，頻繁度設定為1
            然後遞迴地，把字尾P進行分割，然後對下一個結點進行insert_fp_tree()

Header_Table：

          Header_Table的存在是為了方便進行快速查詢。
          Header_Table有三個域：item_name,count,next

            item_name是這個item的唯一識別符號
            count是這個item的支援度
            next指向FP-Tree中的一個item的點，並且連線成串

Conditional Pattern Base | 條件模式基：

          條件模式基是由FP-Tree中所有的item的字首構成的。
          從事務資料的角度上講，就是包含item(可以不止一個元素)的所有事務集

        generate conditional pattern base:
              構造一個條件模式基，我們利用Header_Table對所有的item進行瀏覽，然後儲存字首路徑即可。

Conditional Pattern Tree | 條件模式樹：

          從條件模式基構建出的FP-Tree稱為條件模式樹。

          對條件模式基中所有item的頻繁度進行加和，然後用閾值過濾，新的由過濾後的字首路徑形成的FP-Tree就是條件模式樹了。

判定：

          如果一個item(可以不止一個)對應的條件模式樹為空或者僅有一條路徑。
          那麼：
              item∪tree即為一個頻繁項集。由apriori定理1可知，其中所有的子集都是頻繁項集。

這次就不祝OIer了。。。反正你們也用不到23333

這裡寫圖片描述

基於關聯規則的推薦-獲取頻繁項集

關聯規則：關聯規則是形如X->Y的蘊含表示式,其中X和Y是不相交的項集,即X∩Y=∅。關聯規則的強度可以用它的支援度(support)和置信度(confidence)來度量支援度確定規則可以用於給定資料集的頻繁程度（能夠關聯的次數）置信度確定

獲取頻繁項集和關聯規則的Python實現【先驗演算法】

# -*- coding: utf-8 -*- #引數設定 data_file = 'F:\\user_match_stat\\itemset.txt' #檔案格式csv，形如：item1,item2,item3 #每個事務佔一行 frequent_itemsets_sav

R_Studio(關聯)Apriori演算法尋找頻繁項集的方法

　　使用Apriori演算法尋找頻繁項集　　 #匯入arules包 install.packages("arules") library ( arules ) setwd('D:\\data') Gary<-

第11章：使用Apriori演算法進行關聯分析（計算頻繁項集）

目的：找到資料集中事務的關係，如超市中經常一起出現的物品集合，想找到支援度超過0.8的所有項集概念：頻繁項集：指經常出現在一起的物品集合；關聯規則：指兩個物品之間可能存在很強的關係，如一個人買了什麼之後很大可能會買另一種東西；支援度：資料集中包含該項集的記錄所佔的比例；保

資料探勘之關聯分析二（頻繁項集的產生）

頻繁項集的產生格結構（lattice structure）常常用來表示所有可能的項集。發現頻繁項集的一個原始方法是確定格結構中每個候選項集的支援度。但是工作量比較大。另外有幾種方法可以降低產生頻繁項集的計算複雜度。 1. 減少候選項集的數目。如先驗

Apriori演算法簡介---關聯規則的頻繁項集演算法

①Apriori演算法的缺點：(1)由頻繁k-1項集進行自連線生成的候選頻繁k項集數量巨大。(2)在驗證候選頻繁k項集的時候需要對整個資料庫進行掃描，非常耗時。 ②網上提到的頻集演算法的幾種優化方法：1. 基於劃分的方法。2. 基於hash的方法。3. 基於取樣的方法。4. 減少交易的個數。

海量資料探勘MMDS week2: Association Rules關聯規則與頻繁項集挖掘

海量資料探勘Mining Massive Datasets(MMDs) -Jure Leskovec courses學習筆記之association rules關聯規則與頻繁項集挖掘 {Frequent Itemsets: Often called "associatio

關聯規則（頻繁項集）——Apriori

1.該問題最初是對“購物籃”提出來的，著名例子是“尿布與啤酒”。 2.相關概念：關聯規則的支援度：Support(A,B)=包含A和B的事務數/事務總數關聯規則的置信度：Confidence(A,B)= 包含A和B的事務數/包含A事務數頻繁項集：項集的頻率大於等

關聯規則—頻繁項集Apriori演算法

轉載地址：http://liyonghui160com.iteye.com/blog/2080531 一、前言頻繁模式和對應的關聯或相關規則在一定程度上刻畫了屬性條件與類標號之間的有趣聯絡，因此將關聯規則挖掘用於分類也會產生比較好的效果。

python關聯分析 __機器學習之FP-growth頻繁項集演算法

FP-growth演算法專案背景/目的對於廣告投放而言,好的關聯會一定程度上提高使用者的點選以及後續的諮詢成單對於產品而言,關聯分析也是提高產品轉化的重要手段,也是大多商家都在做的事情,尤其是電商平臺曾經我用SPSS Modeler做過Apriori關聯分析模型,也能

第11章：使用Apriori演算法進行關聯分析（從頻繁項集中挖掘關聯規則）

原理：根據頻繁項集找關聯規則，如有一個頻繁項集{豆奶，萵苣}，那麼可能有一條關聯規則是豆奶->萵苣，即一個人購買了豆奶，則大可能他會購買萵苣，但反過來一個人購買了萵苣，不一定他會購買豆奶，頻繁項集使用支援度量化，關聯規則使用可信度或置信度量化。一條規則P->H的可信度定義為支援

python關聯分析__機器學習之FP-growth頻繁項集演算法

FP-growth演算法專案背景/目的對於廣告投放而言,好的關聯會一定程度上提高使用者的點選以及後續的諮詢成單對於產品而言,關聯分析也是提高產品轉化的重要手段,也是大多商家都在做的事情,尤其是電商平臺曾經我用SPSS Modeler做過Apriori關聯

Apriori關聯分析與FP-growth挖掘頻繁項集

1 問題引入在去雜貨店買東西的過程，實際上包含了機器學習的應用，這包括物品的展示方式、優惠券等。通過檢視哪些商品經常被一起購買，商店可以瞭解使用者的購買習慣，然後將經常被一起購買的物品擺放在一起，有

頻繁項集與強規則

<資料探勘導論>第六章第1節項集和事務項: 就是集合中的一個元素項集: 就是項的集合事務: 事務是關聯分析中最基本的概念, 也是最核心的概念.事務集是問題, 關聯分析是方法. 每個事務唯一關聯一個項集,可以認為事務就是個項

海量資料探勘MMDS week2: 頻繁項集挖掘 Apriori演算法的改進：基於hash的方法

海量資料探勘Mining Massive Datasets(MMDs) -Jure Leskovec courses學習筆記之關聯規則Apriori演算法的改進：基於hash的方法：PCY演算法, Multistage演算法, Multihash演算法 Apriori演

手推FP-growth (頻繁模式增長）算法------挖掘頻繁項集

att 相同事務支持 apr 一次多個什麽統計一.頻繁項集挖掘為什麽會出現FP-growth呢？原因：這得從Apriori算法的原理說起，Apriori會產生大量候選項集（就是連接後產生的），在剪枝時，需要掃描整個數據庫（就是給出的數據），通過模式匹配檢查候

機器學習實戰（Machine Learning in Action）學習筆記————08.使用FPgrowth演算法來高效發現頻繁項集

機器學習實戰（Machine Learning in Action）學習筆記————08.使用FPgrowth演算法來高效發現頻繁項集關鍵字：FPgrowth、頻繁項集、條件FP樹、非監督學習作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@autho

機器學習之FP-growth頻繁項集演算法

FP-growth演算法專案背景/目的對於廣告投放而言,好的關聯會一定程度上提高使用者的點選以及後續的諮詢成單對於產品而言,關聯分析也是提高產品轉化的重要手段,也是大多商家都在做的事情,尤其是電商平臺曾經我用SPSS Modeler做過Apriori關聯分析模型,也能滿足需求,但是效果自然是不及pyt

機器學習之FP-growth頻繁項集算法

算法 image -o 做的 mine 關聯 RoCE 節點 reat FP-growth算法項目背景/目的對於廣告投放而言,好的關聯會一定程度上提高用戶的點擊以及後續的咨詢成單對於產品而言,關聯分析也是提高產品轉化的重要手段,也是大多商家都在做的事情,尤其是電商平臺曾

04_從啤酒與尿布，聊關聯規則推薦

“把啤酒放在尿布旁，有助於提升啤酒銷售量”是關聯規則推薦的經典案例，今天，和大家聊聊“關聯規則推薦”，正文不含任何公式，保證PM弄懂。一、概念什麼是關聯規則（Association Rules）？答：關聯規則是資料探勘中的概念，通過分析資料，找到資料之間的關聯。電

基於關聯規則的推薦-獲取頻繁項集

關聯規則：

使用Apriori演算法獲取頻繁項集

暴力挖取：

先驗原理：

使用FP-Growth演算法獲取頻繁項集

FP-Tree Frequent Pattern Tree | 頻繁模式樹：

Header_Table：

Conditional Pattern Base | 條件模式基：

Conditional Pattern Tree | 條件模式樹：

判定：

相關推薦