spark mllib機器學習之三 FPGrowth

阿新 • • 發佈：2019-01-07

資料格式：

蘋果梨香蕉
梨牛奶土豆
蘋果香蕉狗
狗土豆
土豆牛奶鹽
鹽梨狗
蘋果梨狗

package com.agm.guanlian

import org.apache.spark.mllib.fpm.FPGrowth
import org.apache.spark.{SparkConf, SparkContext}
import java.io._
import org.apache.log4j.{Level, Logger}

object FPGrowth {
def main(args:Array[String]){

Logger.getLogger("org").setLevel(Level.ERROR)

val conf = new SparkConf().setAppName("FPGrowthTest").setMaster("local").set("spark.sql.warehouse.dir","E:/ideaWorkspace/ScalaSparkMl/spark-warehouse")
val sc = new SparkContext(conf)
//設定引數
//最小支援度
val minSupport=0.2
//最小置信度
val minConfidence=0.6
//資料分割槽
val numPartitions=2

//取出資料
val data = sc.textFile("F:\\testData\\spark\\FPGrowth.txt")

//把資料通過空格分割
val transactions=data.map(x=>x.split(" "))
transactions.cache()
//建立一個FPGrowth的演算法實列
val fpg = new FPGrowth()
//設定訓練時候的最小支援度和資料分割槽
fpg.setMinSupport(minSupport)
fpg.setNumPartitions(numPartitions)

//把資料帶入演算法中
val model = fpg.run(transactions)

//檢視所有的頻繁項集，並且列出它出現的次數
model.freqItemsets.collect().foreach(itemset=>{
println( itemset.items.mkString("[", ",", "]")+","+itemset.freq)
})

//通過置信度篩選出推薦規則則
//antecedent表示前項
//consequent表示後項
//confidence表示規則的置信度
//這裡可以把規則寫入到Mysql資料庫中，以後使用來做推薦
//如果規則過多就把規則寫入redis，這裡就可以直接從記憶體中讀取了，我選擇的方式是寫入Mysql，然後再把推薦清單寫入redis
model.generateAssociationRules(minConfidence).collect().foreach(rule=>{
println(rule.antecedent.mkString(",")+"-->"+
rule.consequent.mkString(",")+"-->"+ rule.confidence)
})
//檢視規則生成的數量
println(model.generateAssociationRules(minConfidence).collect().length)

//並且所有的規則產生的推薦，後項只有1個，相同的前項產生不同的推薦結果是不同的行
//不同的規則可能會產生同一個推薦結果，所以樣本資料過規則的時候需要去重

}

}

spark mllib機器學習之三 FPGrowth

spark mllib機器學習之三 FPGrowth

Spark MLlib 機器學習演算法與原始碼解析（網路課程—第一期）

《Spark MLlib機器學習實踐》內容簡介、目錄

Spark MLlib 機器學習（分散式機器學習愛好者，《Spark MLlib 機器學習》電子工業出版社於2016-03出版，歡迎大家關注！）

spark Ml 機器學習之線性迴歸

spark之MLlib機器學習-Kmeans

機器學習之支持向量機（三）：核函數和KKT條件的理解

機器學習之貝葉斯網路（三）

機器學習之旅（三）

[三]機器學習之決策樹與隨機森林

演算法工程師修仙之路：吳恩達機器學習（三）

Python與機器學習之資料視覺化(三)

機器學習之旅：支援向量機通俗導論（理解SVM的三層境界）

系統學習機器學習之SVM(三)--Liblinear,LibSVM使用整理，總結

機器學習之決策樹 Decision Tree（三）scikit-learn演算法庫

深度學習之三：機器學習的策略

Spark機器學習之特徵提取、選擇、轉換

Spark機器學習之--邏輯迴歸

ARCore之路－計算機視覺之機器學習（三）

機器學習之（1）——學習樸素貝葉斯-三種模型理論+python程式碼程式設計例項

spark mllib機器學習之三 FPGrowth

相關推薦