1. 程式人生 > >關聯規則挖掘的演算法——Apriori演算法

關聯規則挖掘的演算法——Apriori演算法

3. 基於取樣的方法。基於前一遍掃描得到的資訊,對此仔細地作組合分析,可以得到一個改進的演算法,Mannila等[8]先考慮了這一點,他們認為取樣是發現規則的一個有效途徑。隨後又由Toivonen[16]進一步發展了這個思想,先使用從資料庫中抽取出來的取樣得到一些在整個資料庫中可能成立的規則,然後對資料庫的剩餘部分驗證這個結果。Toivonen的演算法相當簡單並顯著地減少了I/O代價,但是一個很大的缺點就是產生的結果不精確,即存在所謂的資料扭曲(data skew)。分佈在同一頁面上的資料時常是高度相關的,可能不能表示整個資料庫中模式的分佈,由此而導致的是取樣5%的交易資料所花費的代價可能同掃描一遍資料庫相近。Lin和Dunham在[7]中討論了反扭曲(Anti-skew)演算法來挖掘關聯規則,在那裡他們引入的技術使得掃描資料庫的次數少於2次,演算法使用了一個取樣處理來收集有關資料的次數來減少掃描遍數。