1. 程式人生 > >資料探勘——關聯分析

資料探勘——關聯分析

前言

關聯規則是人類認知客觀事物形成的一種認知模式。人們可以從龐大的事物個體中發現一個或者多個的關聯。從而建立出關聯規則。就像一個因果關係一樣,就像我們看到惡狗就想到 可能會咬人(本人對狗無惡意),按下開關的按鈕燈就會開。這些事物本身是沒有聯絡的。但是人們可以從中學到一個關聯規則。那麼機器如何學的到呢?就像每本BI(商業職能)教材或者資料探勘教材都會講到的“啤酒和尿布”的案例,這兩個本身毫無聯絡的東西怎麼會關聯到一起呢?

頻繁模式

模式

關聯關聯,不能說自己與自己關聯吧。總得有兩個以上得個體,但是個體與個體之間即使有關聯 也應該是一個無序得組合。這個組合就叫模式。

支援度和置信度

頻繁模式就是頻率很高的模式。
怎麼判斷這個頻率呢?
那就是支援度和置信度

支援度:就是這個組合出現在總樣本中的百分比。比如總樣本中這個組合出現所佔百分比是50%。那麼支援度就是50%。
置信度::就是一個順序性,不如模式是(A、B)那麼擁有A的一定擁有B。那麼就說擁有A後擁有B的置信度為100%。反過來,擁有B後擁有A的概率是40% 那就說。擁有B後擁有A的置信度是40%。

表達的高大上一點就是:
A=>B [support=50%, confidence=100%]
B=>A [support=50% ,confidence=40%]

結論:支援度和置信度都高於閾值的模式稱為頻繁模式。