1. 程式人生 > >機器學習實戰精讀--------Apriori算法

機器學習實戰精讀--------Apriori算法

apriori

關聯分析(關聯規則學習):從大規模數據集中尋找物品間的隱含關系,

Apriori算法:一種挖掘關聯規則的頻繁項算法,其核心是通過候選集生成和情節的向下封閉檢測ll階段來挖掘頻繁項集,它是最具影響的挖掘布爾關聯規則頻繁集的算法

Aprior算法缺點:① 可能產生大量候選集;② 可能需要重復掃描數據庫。

頻繁項集:經常出現在一塊的物品的集合

關聯規則暗示兩種物品之間可能存在很強的關系

一個項集的支持度:數據集中包含該項集的記錄所占的比例;支持度是針對項集來說的。

可信度(置信度)針對一條諸如{尿布}-》{葡萄酒}的關聯規則來定義的,這條規則的可信度可以被定義為“支持度({尿布,葡萄酒})/支持度({尿布})”

支持度和可信度是用來量化關聯分析是否成功的方法

Apriori原理:如果說某個項集是頻繁的,那麽它的所有子集也是頻繁的;如果一個項集是非頻繁的,anemia它的所有超集也是非頻繁的。使用該原理可以避免項集數目的指數增長,從而在合理的時間內計算出頻繁項集。

本文出自 “付煒超” 博客,謝絕轉載!

機器學習實戰精讀--------Apriori算法