1. 程式人生 > >挖掘頻繁模、關聯和相關性(3)

挖掘頻繁模、關聯和相關性(3)

模式評估方法

強規則不一定是有趣的

這裡寫圖片描述

上面的例子雖然是強規則,然而,是一種規則誤導,因為購買錄影的概率是75%,比66%還高。事實上,計算機遊戲和錄影是負相關的,因為買一種實際上降低了買另一種的可能性。

從關聯分析到相關分析

支援度和置信度度量不足以過濾掉無趣的關聯規則。為了處理這個問題,可以使用相關性度量來擴充關聯規則的支援度-置信度框架。這導致如下形式的相關規則(correlation rule)

AB[support,confidence,correlation]

也就是說,相關規則不僅用支援度和置信度度量,而且還用項集A和B之間的相關性度量。

提升度:項集A的出現獨立於項集B的出現,如果P

(AB)=P(A)P(B);否則,作為事件,項集A和B是依賴的(dependent)和相關的(correlated).

lift(A,B)=P(AB)P(A)P(B)=P(BA)P(B)=conf(AB)sup(B)

如果上式值小於1,則A的出現與B的出現是負相關的,如果大於1是正相關的,如果等於1,他們之間是獨立的。

χ2 進行相關分析