關聯分析--概述（項集、關聯規則、支援度、置信度、提升度）

阿新 • • 發佈：2021-09-08

關聯分析

概述

關聯分析是資料探勘的核心技術之一，其關聯規則模型及資料探勘演算法是由 IBM 公司Almaden研究中心的R.Agrawal在1993年首先提出的，目的是從大量資料中發現項集之間的有趣關聯或相互關係，其中最經典的Apriori演算法在關聯規則分析領域具有很大的影響力。

1．項集(ltemset)

這是一個集合的概念，在一籃子商品中一件消費品即為一項(Item)，則若干項的集合稱為項集，如{啤酒，尿布}即構成一個二元項集。

2. 關聯規則（Association Rule）

一般記為X→Y的形式，稱關聯規則左側的項集X為先決條件，右側項集Y為相應的關聯結果，用於表示出資料內隱含的關聯性。如

:關聯規則尿布→啤酒成立則表示購買了尿布的消費者往往也會購買啤酒這一商品，即這兩個購買行為之間具有一定關聯性。

至於關聯性的強度如何，則由關聯分析中的三個核心概念——支援度、置信度和提升度來控制和評價。

假設有10000個消費者購買了商品，其中購買尿布的有1000個，購買啤酒的有2000個，購買麵包的有500個，且同時購買尿布與啤酒的有800個，同時購買尿布與麵包的有100個。

3．支援度（Support)

支援度是指在所有項集中{X，Y}出現的可能性，即項集中同時含有X和Y的概率

該指標作為建立強關聯規則的第一個門檻，衡量了所考察關聯規則在“量”上的多少。其意義在於通過最小閾值（minsup, Minimum Support)

的設定，來剔除那些“出鏡率”較低的無意義規則，而相應地保留下出現較為頻繁的項集所隱含的規則。上述過程用公式表示，即是篩選出滿足:

的項集Z，被稱為頻繁項集（Frequent Itemset）。

在上述的具體資料中，當我們設定最小閾值為5%，由於{尿布，啤酒}的支援度為800/10000=8%，而{尿布，麵包}的支援度為100/10000=1%，則{尿布，啤酒}由於滿足了基本的數量要求，成為頻繁項集，且規則尿布→啤酒、啤酒→尿布同時被保留，而{尿布，麵包}所對應的兩條規則都被排除。

4．置信度(Confidence)

置信度表示在關聯規則的先決條件X發生的條件下，關聯結果Y發生的概率，即含有X的項集中，同時含有Y的可能性

;

這是生成強關聯規則的第二個門檻，我們需要對置信度設定最小閾值(mincon, Minimum Confidence)來實現進一步篩選，從而最終生成滿足需要的強關聯規則。因此，繼篩選出頻繁項集後，需從中進而選取滿足:

的規則，至此完成所需關聯規則的生成。

具體的，當設定置信度的最小閾值為70%時，尿布→啤酒的置信度為800/1000=80%，而規則啤酒→尿布的置信度則為800/2000=40%，被剔除。至此，我們根據需要篩選出了一條強關聯規則——尿布→啤酒。

5．提升度（lift）

提升度表示在含有X的條件下同時含有Y的可能性與沒有這個條件下項集中含有Y的可能性之比，即在Y自身出現可能性P(Y)的基礎上，X的出現對於Y的“出鏡率”P(YIX)的提升程度:

該指標與置信度同樣用於衡量規則的可靠性，可以看作是置信度的一種互補指標。

舉例來說，我們考慮1000個消費者，發現有500人購買了茶葉，其中有450人同時購買了咖啡，另50人沒有，由於規則茶葉→咖啡的置信度高達450/500=90%，由此我們可能會認為喜歡喝茶的人往往喜歡喝咖啡。但當我們來看另外沒有購買茶葉的500人，其中同樣有450人也買了咖啡，且同樣是很高的置信度90%，由此，我們看到不喝茶的人也愛喝咖啡。這樣來看，其實是否購買咖啡，與有沒有購買茶葉並沒有關聯，兩者是相互獨立的，其提升度為90%/(450+450)y/1000=1。

由此可見，提升度正是彌補了置信度的這一缺陷，當lift值為1時表示X與Y相互獨立，X對Y出現的可能性沒有提升作用，而其值越大(>1）則表明X對Y的提升程度越大，也即表明關聯性越強。

通過以上概念，我們可總結出關聯分析的基本演算法步驟。(1）選出滿足支援度最小閾值的所有項集，即頻繁項集。

一般來說，由於所研究的資料集往往是海量的，我們想要考察的規則不可能佔有其中的絕大部分。就像如果想要考察買了啤酒的消費者還會購買哪些商品時，當我們把閾值設為50%，就基本已經剔除了所有含有“啤酒”的項，因為不可能去超市的消費者一半都買了啤酒。因此，該閾值一般設定為5%～10%就足夠了。

(2）從頻繁項集中找出滿足最小置信度的所有規則。

而置信度的閾值往往設定得較高，如70%~90%，因為這是我們剔除無意義的項集，獲取強聯規則的重要步驟。當然，這也是依情況而定的，如果想要獲取大量關聯規則，該閾值則可以為較低的值。

本文來自部落格園，作者：zhang-X，轉載請註明原文連結：https://www.cnblogs.com/YY-zhang/p/15244184.html

關聯分析--概述（項集、關聯規則、支援度、置信度、提升度）

關聯分析--概述（項集、關聯規則、支援度、置信度、提升度）

MovieLens 電影分類中的頻繁項集和關聯規則

騰訊視訊：會盡快調整超前點播“逐集解鎖”規則，支援使用者選集解鎖

關聯關係、關聯查詢（等值連線、內連線、外連線）

10Django資料表關聯關係對映（一對一、一對多、多對多）

【iOS面試糧食】OC語言—Category(分類)和類擴充套件(extension)、關聯物件

如何利用分析函式改寫範圍判斷自關聯查詢詳解

《認識 UML 類關係——依賴、關聯、聚合、組合、泛化》

依賴、泛化、實現、關聯、聚合、組合

Hibernate關聯對映錯題合集

Apriori關聯分析

python介面自動化（二十四）引數關聯和JSESSIONID（上個介面返回資料作為下個介面請求引數）

Python資料分析實戰（1）資料分析概述

關聯容器 set（集合）的簡單實現

基於GCTA的gene-based關聯分析研究

相空間重構求關聯維數——GP演算法、自相關法求時間延遲tau、最近鄰演算法求嵌入維數m

【21年01月DW打卡】Task01 - 異常檢測概述（常用場景、常見方法、PyOD工具庫+KNN異常檢測示例）

分頁、關聯查詢優化

灰色關聯分析

工信部、公安部清理整治涉詐電話卡、物聯網絡卡及關聯網際網路賬號

關聯分析--概述（項集、關聯規則、支援度、置信度、提升度）

相關推薦