Apriori與FP-Growth：啤酒與尿布的故事

阿新 • • 發佈：2022-03-16

關聯分析（無監督學習），目標是從大資料中找出那些經常一起出現的東西

項集（item set）：可以是單個的項，也可以是一系列的專案的集合

關聯規則：根據頻繁項集挖掘出的結果。例如{尿布}-》{啤酒} 規則的左側稱為先導，右側稱為後繼

支援度：一個項集在資料中出現的比例

支援度（尿布）=（尿布出現的次數）/（購物小票的數量）=0.9

置信度：在一條規則中，出現先導也出現後繼的比例

置信度（尿布-》啤酒）=（支援度【尿布U啤酒】）/（支援度【尿布】）=8/9

提升度：衡量先導和後繼的獨立性

　　　　　　提升度（尿布-》啤酒）=(置信度（尿布-》啤酒）/（支援度【啤酒】)=10/9

【如果（尿布-》啤酒）的提升度等於1，這表示尿布和啤酒無關聯；提升度大於1，這表示如果顧客購買了尿布，可能也會買啤酒；而提升度小於1則表示如果顧客購買了尿布，那麼不太可能再購買啤酒】

確信度：對於一條規則，不發生先導而發生後繼的概率與這條規則錯誤的概率比值

確信度（尿布-》啤酒）=（1-支援度（啤酒））/（1-置信度（尿布-》啤酒））=9/5

關聯挖掘的步驟：找出頻繁項集、從頻繁項集中提取規則

Apriori演算法的核心：如果某個項集是頻繁項集，那麼它的全部子集也都是頻繁項集

Apriori演算法：使用排列組合的方式列舉出所有可能的項集，每一次計算都需要重新讀取整個資料集，從而計算本輪次的項集支援度

FP-Growth：首先使用資料生成一顆FP-Growth樹，然後再根據這棵樹來生成頻繁項集。如下圖所示

#記得安裝包pip install efficient-apriori
from efficient_apriori import apriori

#設定資料集
data=[('尿布','啤酒','奶粉','洋蔥'）,
('尿布','啤酒','奶粉','洋蔥')，（'尿布','啤酒','蘋果','洋蔥'）,('尿布','啤酒','蘋果')，（'尿布','啤酒','奶粉'），
（'尿布','啤酒','奶粉'）,('尿布','啤酒','蘋果'),('尿布','奶粉','洋蔥')，（' 
奶粉','洋蔥'）]
#挖掘頻繁項集和規則
itemsets,rules=apriori(data,min_support=0.4,min_confidence=1)
print(itemsets)

Apriori與FP-Growth：啤酒與尿布的故事

關聯分析（無監督學習），目標是從大資料中找出那些經常一起出現的東西

cook book：10：模組與包+11：網路與Web程式設計

1：構建一個模組的層級包　　程式碼組織層由很多分層模組構成的包 # 封裝成包：在檔案系統上組織你的程式碼，並確保每個目錄都定義了一個__init__.py檔案

Scala併發程式設計實戰：Monitor與synchronized

Java併發程式設計最常用和易用的技術莫過於synchronized關鍵字，而Scala的併發程式設計之旅也可以從synchronized開始。而synchronized的背後其實是monitor技術。

低延時直播與RTC融合架構設計②：直播與RTC低延時方案

本文整理自網易雲信多媒體資深技術架構師吳桐在 QCon 全球軟體開發大會上海站的演講內容《超高清4K視訊低延時直播與RTC融合架構設計》，為該系列的第二篇文章。

iOS 底層拾遺：objc_msgSend 與方法快取

前言 Runtime 訊息傳送與轉發流程總是大家關注的重點，卻常常忽略方法快取機制這個顯著提升 objc_msgSend 效能的幕後功臣。

Redis之坑：Redis與MySQL中事務的區別

Note: 該篇討論的只是Redis與MySQL中事務的區別，並不能統一代表NO-SQL與關係型SQL；

MySQL入門（1）：安裝與除錯環境變數

下載地址：ttps://dev.mysql.com/downloads/mysql/ 點選歷史版本下載對應的版本點選下載

Java面向物件程式設計：類的定義，靜態變數，成員變數，建構函式，封裝與私有，this概念與用法詳解

本文例項講述了Java面向物件程式設計：類的定義，靜態變數，成員變數，建構函式，封裝與私有，this概念與用法。分享給大家供大家參考，具體如下：

C# 反射與特性(十)：EMIT 構建程式碼

目錄構建程式碼1,程式集(Assembly)2,模組（Module）3,型別(Type)4,DynamicMethod 定義方法與新增 IL

一文入門：XGBoost與手推二階導

作者前言在2020年還在整理XGB的演演算法，其實已經有點過時了。。不過，主要是為了學習演演算法嘛。現在的大資料競賽，XGB基本上已經全面被LGB模型取代了，這裡主要是學習一下Boost演演算法。之前已經在其他博文中介

SpringBoot：過濾器與攔截器

過濾器與攔截器濾器和攔截器都屬於面向切面程式設計的具體實現。而兩者的主要區別包括以下幾個方面：

Redis系列(八)：釋出與訂閱

Redis的釋出與訂閱，有點類似於訊息佇列，傳送者往頻道傳送訊息，頻道的訂閱者接收訊息。

micro：bit——第二集：溫控與風扇

let average = 0 let sum = 0 let min = 0 let max = 0 let line = 0 let 轉速 = 0 let 溫度 = 0 input.onButtonPressed(Button.A, function () {

ROS入門筆記（十一）：編寫與測試簡單的Service和Client (Python)

ROS入門筆記（十一）：編寫與測試簡單的Service和Client (Python) 目錄01 導讀02 功能包的建立03 在功能包中建立自定義服務型別3.1 定義srv檔案3.2在package.xml中新增功能包依賴3.3 在CMakeLists.txt新增編譯選項04

【《你不知道的JS（中卷②）》】一、非同步：現在與未來

一、非同步：現在與未來：如何表達和控制持續一段時間的程式行為，是使用類似JS這樣的語言程式設計時，很重要但常常被誤解的一點。

理解Spring（一）：Spring 與 IoC

目錄什麼是 Spring Spring 的整體架構什麼是 IoC Bean 的概念 Spring 的基本使用 Spring 的兩種 IoC 容器

git詳解2：分支與合併

一.分支 1.分支的簡介　　在進行提交操作時，Git 會儲存一個提交物件（commit object），

Docker實用技巧（三）：容器與主機之間的埠對映

docker容器想要實現一些網路通訊的功能，就需要埠對映，這裡想實現三個目標：埠對映、多埠對映、xshell遠端登陸docker容器。

Python基礎TASK1：變數與資料型別

python基礎學習TASK1:變數，運算子與資料型別 1.變數 ·在使用變數之前，需要對其先賦值。

MySQL學習筆記（24）：許可權與安全

本文更新於2020-05-03，使用MySQL 5.7，作業系統為Deepin 15.4。目錄許可權安全作業系統相關的安全問題資料庫相關的安全問題資料庫安全設定選項