關聯規則、支援度（support）、置信度（confidence）、並運用Spark RDD計算

阿新 • • 發佈：2019-01-02

例子：
總共有10000個消費者購買了商品，
其中購買尿布的有1000人，
購買啤酒的有2000人，
購買麵包的有500人，
同時購買尿布和啤酒的有800人，
同時購買尿布的麵包的有100人。

關聯規則

關聯規則：用於表示資料內隱含的關聯性，例如：購買尿布的人往往會購買啤酒。

支援度（support）

支援度：{X, Y}同時出現的概率，例如：{尿布，啤酒}同時出現的概率

support=同時購買{X,Y}的人數總人數

{尿布，啤酒}的支援度 = 800 / 10000 = 0.08
{尿布，麵包}的支援度 = 100 / 10000 = 0.01

注意：{尿布，啤酒}的支援度等於{啤酒，尿布}的支援度，支援度沒有先後順序之分

置信度（confidence）

置信度：購買X的人，同時購買Y的概率，例如：購買尿布的人，同時購買啤酒的概率，而這個概率就是購買尿布時購買啤酒的置信度

confidence（X−>Y）=同時購買{X,Y}的人數購買X的人數 confidence（Y−>X）=同時購買{X,Y}的人數購買Y的人數

( 尿布 -> 啤酒 ) 的置信度 = 800 / 1000 = 0.8
( 啤酒 -> 尿布 ) 的置信度 = 800 / 2000 = 0.4

Spark計算支援度和置信度

B的置信度、B->A的置信度
    // 要求支援度和置信度就需要三個值，喜歡A公司的人數，喜歡B公司的人數，同時喜歡A和B公司的人數
    // 我們先求前兩個
    val companyCountRDD = data.map(a => (a._2, 1)).reduceByKey(_ + _)

    /**
      * (mi,1)
      * (google,3)
      * (apple,2)
      */
    companyCountRDD.collect().foreach(println)

    // 要計算同時喜歡A和B公司的人數，要先知道A，B所有可能的組合
    // 比如：1， 2， 3,；所有可能的組合就是（1,2）,（1,3）,（2,3）
    // 這裡我們簡單的用cartesian運算元實現
    // cartesian運算元會得到這樣的結果：
    // （1,1），（1,2），（1,3），
    // （2,1），（2,2），（2,3），
    // （3,1），（3,2），（3,3）
    // 然後filter運算元，只保留左邊大於右邊的結果，這樣能過濾掉相等的結果，如（1,1），還有重複的結果，如（2,1），因為我們已經有（1,2）了
    val cartesianRDD = companyCountRDD.cartesian(companyCountRDD).filter(tuple => tuple._1._1 > tuple._2._1).map(t => ((t._1._1, t._2._1), (t._1._2, t._2._2)))

    // 這樣我們不但得到了A和B的所有組合，還順帶聚合了計算用的到的資料
    /** 公司A、公司B、喜歡A公司的人數、喜歡B公司的人數
      * ((mi,google),(1,3))
      * ((mi,apple),(1,2))
      * ((google,apple),(3,2))
      */
    cartesianRDD.collect().foreach(println)

    // 下面開始計算，同時喜歡A和B公司的人數
    // 比如a這個人，它喜歡google,apple,mi; 那麼就是同時喜歡(mi,google)，(mi,apple)，(google,apple)
    // 所以我們先要將資料轉換成(a, (google,apple,mi))
    // 這個時候使用者就沒用了，我們只需要知道公司的組合
    // 因此轉換成(mi,google)，(mi,apple)，(google,apple)
    // 最後用flatMap將結果打散，再計數
    val userCompaniesRDD = data.groupByKey().cache()
    val meanwhileRDD = userCompaniesRDD.map(_._2)
      // 這裡採用了類似cartesian的做法計算所有的組合，然後過濾掉不需要的
      .flatMap(iter => iter.flatMap(i => iter.map(j => (i, j))).filter(tuple => tuple._1 > tuple._2))
      .map(tuple => (tuple, 1))
      .reduceByKey(_ + _)
    // 計算使用者總數，後面會用到
    val userNum = userCompaniesRDD.count()

    /** 公司A、公司B、同時喜歡A和B公司的人數
      * ((mi,apple),1)
      * ((mi,google),1)
      * ((google,apple),2)
      */
    meanwhileRDD.collect().foreach(println)

    val calRDD = cartesianRDD.join(meanwhileRDD)

    /** 公司A、公司B、喜歡A公司的人數，喜歡B公司的人數，同時喜歡A和B公司的人數
      * ((mi,apple),((1,2),1))
      * ((mi,google),((1,3),1))
      * ((google,apple),((3,2),2))
      */
    calRDD.collect.foreach(println)

    // 計算結果
    val resultRDD = calRDD.map(t => {
      val aCompany = t._1._1
      val bCompany = t._1._2
      val aCount = t._2._1._1
      val bCount = t._2._1._2
      val aAndbCount = t._2._2 * 1.0
      // 公司A、公司B、支援度、A->B的置信度、B->A的置信度
      (aCompany, bCompany, aAndbCount / userNum, aAndbCount / aCount, aAndbCount / bCount)
    })

    /**
      * (mi,apple,0.3333333333333333,1.0,0.5)
      * (mi,google,0.3333333333333333,1.0,0.3333333333333333)
      * (google,apple,0.6666666666666666,0.6666666666666666,1.0)
      */
    resultRDD.collect.foreach(println)

    // 最後可以過濾掉數值太低的
    // 支援度的閾值是1%，置信度閾值50%
    val support = 0.01
    val confidence = 0.5
    resultRDD.filter(a => a._3 > support && a._4 > confidence && a._5 > confidence).collect().foreach(println)
  }
}" data-snippet-id="ext.11986a4eeb8ba67eb85edfbe6a9d224c" data-snippet-saved="false" data-codota-status="done">import 
 org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

object Test {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("Test").setMaster("local")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)

    // 測試資料， 為方便分析問題
    // 左邊一列是使用者，有三個使用者a,b,c 

    // 右邊一列是公司，表示使用者喜歡的公司
    val testData = Array(
      ("a", "google"),
      ("a", "apple"),
      ("a", "mi"),
      ("b", "google"),
      ("b", "apple"),
      ("c", "google")
    )
    val data = sc.parallelize(testData)

    // 最終我們要構造出這樣的結果：公司A、公司B、支援度、A->B的置信度、B->A的置信度
    // 要求支援度和置信度就需要三個值，喜歡A公司的人數，喜歡B公司的人數，同時喜歡A和B公司的人數
    // 我們先求前兩個
    val companyCountRDD = data.map(a => (a._2, 1)).reduceByKey(_ + _)

    /**
      * (mi,1)
      * (google,3)
      * (apple,2)
      */
    companyCountRDD.collect().foreach(println)

    // 要計算同時喜歡A和B公司的人數，要先知道A，B所有可能的組合
    // 比如：1， 2， 3,；所有可能的組合就是（1,2）,（1,3）,（2,3）
    // 這裡我們簡單的用cartesian運算元實現
    // cartesian運算元會得到這樣的結果：
    // （1,1），（1,2），（1,3），
    // （2,1），（2,2），（2,3），
    // （3,1），（3,2），（3,3）
    // 然後filter運算元，只保留左邊大於右邊的結果，這樣能過濾掉相等的結果，如（1,1），還有重複的結果，如（2,1），因為我們已經有（1,2）了
    val cartesianRDD = companyCountRDD.cartesian(companyCountRDD).filter(tuple => tuple._1._1 > tuple._2._1).map(t => ((t._1._1, t._2._1), (t._1._2, t._2._2)))

    // 這樣我們不但得到了A和B的所有組合，還順帶聚合了計算用的到的資料
    /** 公司A、公司B、喜歡A公司的人數、喜歡B公司的人數
      * ((mi,google),(1,3))
      * ((mi,apple),(1,2))
      * ((google,apple),(3,2))
      */
    cartesianRDD.collect().foreach(println)

    // 下面開始計算，同時喜歡A和B公司的人數
    // 比如a這個人，它喜歡google,apple,mi; 那麼就是同時喜歡(mi,google)，(mi,apple)，(google,apple)
    // 所以我們先要將資料轉換成(a, (google,apple,mi))
    // 這個時候使用者就沒用了，我們只需要知道公司的組合
    // 因此轉換成(mi,google)，(mi,apple)，(google,apple)
    // 最後用flatMap將結果打散，再計數
    val userCompaniesRDD = data.groupByKey().cache()
    val meanwhileRDD = userCompaniesRDD.map(_._2)
      // 這裡採用了類似cartesian的做法計算所有的組合，然後過濾掉不需要的
      .flatMap(iter => iter.flatMap(i => iter.map(j => (i, j))).filter(tuple => tuple._1 > tuple._2))
      .map(tuple => (tuple, 1))
      .reduceByKey(_ + _)
    // 計算使用者總數，後面會用到
    val userNum = userCompaniesRDD.count()

    /** 公司A、公司B、同時喜歡A和B公司的人數
      * ((mi,apple),1)
      * ((mi,google),1)
      * ((google,apple),2)
      */
    meanwhileRDD.collect().foreach(println)

    val calRDD = cartesianRDD.join(meanwhileRDD)

    /** 公司A、公司B、喜歡A公司的人數，喜歡B公司的人數，同時喜歡A和B公司的人數
      * ((mi,apple),((1,2),1))
      * ((mi,google),((1,3),1))
      * ((google,apple),((3,2),2))
      */
    calRDD.collect.foreach(println)

    // 計算結果
    val resultRDD = calRDD.map(t => {
      val aCompany = t._1._1
      val bCompany = t._1._2
      val aCount = t._2._1._1
      val bCount = t._2._1._2
      val aAndbCount = t._2._2 * 1.0
      // 公司A、公司B、支援度、A->B的置信度、B->A的置信度
      (aCompany, bCompany, aAndbCount / userNum, aAndbCount / aCount, aAndbCount / bCount)
    })

    /**
      * (mi,apple,0.3333333333333333,1.0,0.5)
      * (mi,google,0.3333333333333333,1.0,0.3333333333333333)
      * (google,apple,0.6666666666666666,0.6666666666666666,1.0)
      */
    resultRDD.collect.foreach(println)

    // 最後可以過濾掉數值太低的
    // 支援度的閾值是1%，置信度閾值50%
    val support = 0.01
    val confidence = 0.5
    resultRDD.filter(a => a._3 > support && a._4 > confidence && a._5 > confidence).collect().foreach(println)
  }
}

注意：cartesian這個運算元很恐怖，如果要追求效能的話，還是要自己寫一個演算法

參考

本文的例子以及支援度，置信度的概念，總結自煉數成金-黃美靈老師的Spark MLlib 機器學習演算法與原始碼解析課程課程文件

關聯規則、支援度（support）、置信度（confidence）、並運用Spark RDD計算

例子：總共有10000個消費者購買了商品，其中購買尿布的有1000人，購買啤酒的有2000人，購買麵包的有500人，同時購買尿布和啤酒的有800人，同時購買尿布的麵包的有100人。關聯規則關聯規則：用於表示資料內隱含的關聯性，

關於apriori演算法中置信度、支援度怎麼理解的問題

比如說啤酒和尿布的問題：TID是transaction ID 即交易編號，說白了就是有五個人在超市買了這樣的東西（Iteams），現在我們統計一下，大家買的東西之間有沒有什麼規律，比如買麵包的是不是很可能同時買牛奶這樣的規律。那問題來了，有啥東西去度量麵包與牛奶有沒有關係以及

非監督學習演算法（聚類、降維、關聯規則挖掘）--機器學習--思維導圖手寫筆記（32）

一、思維導圖（點選圖方法）二、補充筆記三、K-means演算法的收斂性說明：當聚類中心μ確定時，求得的各個資料的cluster滿足聚類目標函式最小。當資料cluster確

個性化推薦系統原理介紹（基於內容過濾／協同過濾／關聯規則／序列模式）

信息來講行為記錄鏈接方程機器學習沒有比較 graph 個性化推薦根據用戶興趣和行為特點，向用戶推薦所需的信息或商品，幫助用戶在海量信息中快速發現真正所需的商品，提高用戶黏性，促進信息點擊和商品銷售。推薦系統是基於海量數據挖掘分析的商業智能平臺，推薦主要基

1、百度知道和知乎的區別（騰訊-2014）

用戶更多優先差異階層產品分析似的美團百度搜索 1、題目分析考查點：競品分析、產品分析 2、背景知識用戶體驗五要素：1）戰略層：產品開發者、用戶分別想從產品中獲得什麽 2）範圍層：產品需要具備怎樣的功能，優先級如何 3）結構層：用戶操作產品的路徑是怎樣的，

國內各大互聯網公司相關技術博客3.0版（集合騰訊、阿裏、百度、搜狐、新浪、網易、360等共29個）

hive 時間視覺阿裏媽媽數據可視化發的電商領域事業在2013-07-15 整理了一份國內各大互聯網公司相關技術站點2.0版（集合騰訊、阿裏、百度、搜狐、新浪、360等共49個）近日重新整理了一番，希望能對大家有所幫助 2013年騰訊系列（13）阿

知乎內容抓取二（內含百度知道、百度熱點和代理ip抓取）

sts 精華可用其他添加 get word 登錄 rar 代碼路徑：https://github.com/prophetss/zhihu-crawl 　　接上一篇，知乎的抓取主要是獲取所有話題id進而可以得到所有話題url地址然後就可以抓取具體內容了。之前通過根話

GIS資訊關聯規則挖掘——Apriori演算法的實現（下）

上篇說明了原理，這篇就直接上核心程式碼了~ 程式碼比較長，所以理解可能有點麻煩，核心思路就是計算選擇的維度後遍歷資料，逐步進行迴圈計算置信度，並淘汰每次迴圈後的最低值。這裡有一點要注意的，我一開始想用arraylist構造一個堆疊結構進行資料遍歷的儲存跟計算，因為這樣效率比較高。

GIS資訊關聯規則挖掘——Apriori演算法的實現（上）

最近閒著無聊沒啥課，幫讀master的朋友做了一個桌面端的GIS系統，主要功能是景區管理。其中有個核心功能挺有意思的，就是統計所有景區受損設施的所有致損型別和每個型別具體包含的致損因子後，計算致損因子之間的關聯規則，然後可以根據使用者選定的致損型別組合計算出其景區設施造成損害的概率。（有點

R_Studio(關聯)使用apriori函式簡單檢視資料存在多少條關聯規則，並按支援度降序排序輸出

　　　　檢視資料menu_orders.txt檔案存在多少條關聯規則，並按支援度降序排序輸出　　 #匯入arules包 install.packages("arules") library ( arules )

機器學習實戰（五）支援向量機SVM（Support Vector Machine）

目錄 0. 前言 1. 尋找最大間隔 2. 拉格朗日乘子法和KKT條件 3. 鬆弛變數 4. 帶鬆弛變數的拉格朗日乘子法和KKT條件 5. 序列最小優化SMO（Sequential Minimal Optimiz

藍綠部署、紅黑部署、AB測試、灰度釋出、金絲雀釋出、滾動釋出的概念與區別（轉）

出處：https://www.baidu.com/link?url=QjboallwNm_jxcL3fHG57wEakiBfAs_3-TChTGu1eBXstlHEsGBc-NDA7AKTqsiroBx9a8OMoITgM5mbKAoiSqwMCLj5LzrjcAew2sBt9zO&wd=&e

數的計數（遞迴、遞推、揹包、規律、優化、複雜度）

題目描述我們要求找出具有下列性質數的個數（包括輸入的自然數n）。先輸入一個自然數n（n≤1000），然後對此自然數按照如下方法進行處理：不作任何處理；在它的左邊加上一個自然數，但該自然數不能超過原數的一半；加上數後，繼續按此規則進行處理，直到不能再加自然數為止。輸入輸出格

python資料分析：關聯規則學習（Association rule learning）

何為關聯規則學習關聯規則學習是一種基於規則的機器學習方法，用於發現大型資料庫中變數之間的有趣關係。它旨在使用一些有趣的度量來識別在資料庫中發現的強規則。這種基於規則的方法在分析更多資料時也會生成新規則。假設資料集足夠大，最終目標是幫助機器模擬人類大腦的特徵提取和新未分類資料的抽象關

第11章：使用Apriori演算法進行關聯分析（從頻繁項集中挖掘關聯規則）

原理：根據頻繁項集找關聯規則，如有一個頻繁項集{豆奶，萵苣}，那麼可能有一條關聯規則是豆奶->萵苣，即一個人購買了豆奶，則大可能他會購買萵苣，但反過來一個人購買了萵苣，不一定他會購買豆奶，頻繁項集使用支援度量化，關聯規則使用可信度或置信度量化。一條規則P->H的可信度定義為支援

vmware horizon 6.0搭建-（二、支援的作業系統）

1.vmware horizon 6.0各部分元件建議使用windows server 2008 R2（安裝功能.net framework 3.5）。 2.上述模板機制作完成之後為防止Windows網路安全ID（SID）相同：“C:\windows\System32\Sysprep\Syspr

支援向量機（support vector machine）（一）：線性可分SVM

總結一下，不然過段時間就全忘了，加油~ 1、問題描述假設，存在兩類資料A，B，如圖1所示，A中資料對應於圖中的實心點，B中資料對應圖中的空心點，現在我們需要得到一條直線，能夠將二者進行區分，這樣的線存在無數條，如圖1中的黑色直線所示，這些線都能夠

支援向量機（support vector machine）（二）：線性SVM

通常情況下，存在以下兩種情況： 1、分類完全正確的超平面不一定是最好的； 2、樣本資料不是線性可分的；如圖1所示，如果按照完全分對這個準則來劃分時，L1為最優分割超平面，但是實際情況如果按照L2來進行劃分，效果可能會更好，分類結果會更加魯棒。

js 定位當前城市之介面定位（搜狐、新浪、百度、騰訊API）

1.搜狐API <script src="http://pv.sohu.com/cityjson?ie=utf-8"></script> <script type="text/javascript"> console.log(returnC

機器學習與深度學習系列連載：第一部分機器學習（九）支援向量機2（Support Vector Machine）

另一種視角定義SVM：hinge Loss +kennel trick SVM 可以理解為就是hingle Loss和kernel 的組合 1. hinge Loss 還是讓我們回到二分類的問題，為了方便起見，我們y=1 看做是一類，y=-1 看做是另一類

關聯規則、支援度（support）、置信度（confidence）、並運用Spark RDD計算

關聯規則

支援度（support）

置信度（confidence）

Spark計算支援度和置信度

參考

相關推薦