1. 程式人生 > >無監督學習算法-Apriori進行關聯分析

無監督學習算法-Apriori進行關聯分析

thead 包含 序號 排列組合 關聯分析 大數據量 優缺點 如果 電視

關聯分析

是無監督訊息算法中的一種,Apriori主要用來做_關聯分析_,_關聯分析_可以有兩種形式:頻繁項集或者關聯規則。舉個例子:交易訂單

序號 商品名稱
1 書籍,電腦
2 杯子,手機,手機殼,盤子
3 古箏,手機,手機殼,玻璃
4 手機,玻璃
5 電視,手機,手機殼

頻繁項集:{ 古箏,手機,手機殼,玻璃}就是一個例子。
關聯規則:手機->手機殼,買手機很大概率會買手機殼。

關聯分析使用的思路

  • 無論是頻繁項集還是關聯規則,都是需要看發生的頻率,比如有手機就有手機殼的概率,如果這個比率超過了75%,那麽符合。那麽概率手機->手機殼=概率({手機、手機殼})/概率({手機})=
    3/5 除以 4/5 = 0.75。
  • 上面的只是其中一種組合,理論上要計算所有排列組合的概率,所以隨著數據量的增大,計算量指數增長,而Apriori算法的思路就是如何減少計算量

Apriori的原理

命題:假設一個項集是非頻繁的,那麽該項集的包含者也是非頻繁的。
TODO

優缺點和場景

  • 優點:編碼容易
  • 缺點:大數據量時間可能會唱
  • 試用:數值型 or 標稱型數據

無監督學習算法-Apriori進行關聯分析