1. 程式人生 > 其它 >關聯分析--概述(項集、關聯規則、支援度、置信度、提升度)

關聯分析--概述(項集、關聯規則、支援度、置信度、提升度)

關聯分析

概述

關聯分析是資料探勘的核心技術之一,其關聯規則模型及資料探勘演算法是由 IBM 公司Almaden研究中心的R.Agrawal1993年首先提出的,目的是從大量資料中發現項集之間的有趣關聯或相互關係,其中最經典的Apriori演算法在關聯規則分析領域具有很大的影響力。

1.項集(ltemset)

這是一個集合的概念,在一籃子商品中一件消費品即為一項(Item),則若干項的集合稱為項集,如{啤酒,尿布}即構成一個二元項集。

2. 關聯規則(Association Rule

一般記為X→Y的形式,稱關聯規則左側的項集X為先決條件,右側項集Y為相應的關聯結果,用於表示出資料內隱含的關聯性。如

:關聯規則尿布啤酒成立則表示購買了尿布的消費者往往也會購買啤酒這一商品,即這兩個購買行為之間具有一定關聯性。

至於關聯性的強度如何,則由關聯分析中的三個核心概念——支援度、置信度和提升度來控制和評價。

假設有10000個消費者購買了商品,其中購買尿布的有1000個,購買啤酒的有2000個,購買麵包的有500個,且同時購買尿布與啤酒的有800個,同時購買尿布與麵包的有100個。

3.支援度(Support)

支援度是指在所有項集中{XY}出現的可能性,即項集中同時含有XY的概率

該指標作為建立強關聯規則的第一個門檻,衡量了所考察關聯規則在上的多少。其意義在於通過最小閾值(minsup, Minimum Support)

的設定,來剔除那些出鏡率較低的無意義規則,而相應地保留下出現較為頻繁的項集所隱含的規則。上述過程用公式表示,即是篩選出滿足:

的項集Z,被稱為頻繁項集(Frequent Itemset)。

在上述的具體資料中,當我們設定最小閾值為5%,由於{尿布,啤酒}的支援度為800/10000=8%,而{尿布,麵包}的支援度為100/10000=1%,則{尿布,啤酒}由於滿足了基本的數量要求,成為頻繁項集,且規則尿布啤酒、啤酒尿布同時被保留,而{尿布,麵包}所對應的兩條規則都被排除。

4.置信度(Confidence)

置信度表示在關聯規則的先決條件X發生的條件下,關聯結果Y發生的概率,即含有X的項集中,同時含有Y的可能性

;

這是生成強關聯規則的第二個門檻,我們需要對置信度設定最小閾值(mincon, Minimum Confidence)來實現進一步篩選,從而最終生成滿足需要的強關聯規則。因此,繼篩選出頻繁項集後,需從中進而選取滿足:

的規則,至此完成所需關聯規則的生成。

具體的,當設定置信度的最小閾值為70%時,尿布啤酒的置信度為800/1000=80%,而規則啤酒尿布的置信度則為800/2000=40%,被剔除。至此,我們根據需要篩選出了一條強關聯規則——尿布啤酒。

5.提升度(lift

提升度表示在含有X的條件下同時含有Y的可能性與沒有這個條件下項集中含有Y的可能性之比,即在Y自身出現可能性P(Y)的基礎上,X的出現對於Y出鏡率”P(YIX)的提升程度:

該指標與置信度同樣用於衡量規則的可靠性,可以看作是置信度的一種互補指標。

舉例來說,我們考慮1000個消費者,發現有500人購買了茶葉,其中有450人同時購買了咖啡,另50人沒有,由於規則茶葉咖啡的置信度高達450/500=90%,由此我們可能會認為喜歡喝茶的人往往喜歡喝咖啡。但當我們來看另外沒有購買茶葉的500人,其中同樣有450人也買了咖啡,且同樣是很高的置信度90%,由此,我們看到不喝茶的人也愛喝咖啡。這樣來看,其實是否購買咖啡,與有沒有購買茶葉並沒有關聯,兩者是相互獨立的,其提升度為90%/(450+450)y/1000=1

由此可見,提升度正是彌補了置信度的這一缺陷,當lift值為1時表示XY相互獨立,XY出現的可能性沒有提升作用,而其值越大(>1)則表明XY的提升程度越大,也即表明關聯性越強。

通過以上概念,我們可總結出關聯分析的基本演算法步驟。(1)選出滿足支援度最小閾值的所有項集,即頻繁項集。

一般來說,由於所研究的資料集往往是海量的,我們想要考察的規則不可能佔有其中的絕大部分。就像如果想要考察買了啤酒的消費者還會購買哪些商品時,當我們把閾值設為50%,就基本已經剔除了所有含有啤酒的項,因為不可能去超市的消費者一半都買了啤酒。因此,該閾值一般設定為5%10%就足夠了。

(2)從頻繁項集中找出滿足最小置信度的所有規則。

而置信度的閾值往往設定得較高,如70%~90%,因為這是我們剔除無意義的項集,獲取強聯規則的重要步驟。當然,這也是依情況而定的,如果想要獲取大量關聯規則,該閾值則可以為較低的值。

本文來自部落格園,作者:zhang-X,轉載請註明原文連結:https://www.cnblogs.com/YY-zhang/p/15244184.html