1. 程式人生 > >Apriori演算法簡介---關聯規則的頻繁項集演算法

Apriori演算法簡介---關聯規則的頻繁項集演算法

  ①Apriori演算法的缺點:(1)由頻繁k-1項集進行自連線生成的候選頻繁k項集數量巨大。(2)在驗證候選頻繁k項集的時候需要對整個資料庫進行掃描,非常耗時。

  ②網上提到的頻集演算法的幾種優化方法:1. 基於劃分的方法。2. 基於hash的方法。3. 基於取樣的方法。4. 減少交易的個數。

   我重點看了“基於劃分的方法”改進演算法,現在簡單介紹一下實現思想:

基於劃分(partition)的演算法,這個演算法先把資料庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊並 對它生成所有的頻集,然後把產生的頻集合並,用來生成所有可能的頻集,最後計算這些項集的支援度。

其中,partition演算法要注意的是分片的大小選取,要保證每個分片可以被放入到記憶體

。當每個分片產生頻集後,再合併產生產生全域性的候選k-項集。若在多個處理器分片,可以通過處理器之間共享一個雜湊樹來產生頻集。

轉自:http://blog.csdn.net/lizhengnanhua/article/details/9061755