spark機器學習實現之fpgrowth

阿新 • • 發佈：2019-01-10

很久之前就像寫一些關於資料探勘演算法的東西，因為懶現在才開始動手，因為fpgrowth演算法在mlib中的實現
相對比較簡單，所以打算先拿它下手。
關於fpgrowth的原理本人說的也不專業，推薦

這裡主要寫一下在mlib當中，實現的一個過程
先上程式碼

Logger.getLogger("org").setLevel(Level.ERROR)
    conf.setAppName("fpgrowth")
    //設定引數
    //最小支援度
    val minSupport = 0.1
    //最小置信度
    val minConfidence = 0.8
    //資料分割槽 

    val numPartitions = 2

之前定義好了一個類，裡邊對conf的基礎設定做了定義，直接繼承，然後配置appname
1.設定好支援度和置信度閥值
2.設定好資料的分割槽

 val data = sc.textFile("/usr/local/soft/data/fpgrowth.csv")
    //把資料通過空格分割
    val transactions = data.map(x => x.split(","))
    transactions.cache()

取數，我為了快速實現，還是把資料放到了資料檔案裡邊了，在資料量比較大的情況下，還是
推薦hive或者hdfs上去存放資料。

3567,3577,3645,3653
17805
3665,3669
13341,16617,16661,17291,17535,17549,17553,17921,17931,18205,18225,3467,3567,3699,3771,3785,3943,3959,3981,4019,8623,8635,8651,8657,8663
12369,12371,12585,12587,12589,12593,12597,12605,2188,4335,6597

以上是部分資料展現，記錄的是使用者的瀏覽情況

//建立一個FPGrowth的演算法實列
    val fpg = new FPGrowth()
    //設定訓練時候的最小支援度和資料分割槽 

    fpg.setMinSupport(minSupport)
    fpg.setNumPartitions(numPartitions)

建立例項並且設定分割槽和支援度閥值

 //把資料帶入演算法中
    val model = fpg.run(transactions)

跑演算法，這裡其實才是整段的核心部分，返回型別是FPGrowthModel[String]，關於這個型別，
如果有時間我們再來仔細的說一說

//檢視所有的頻繁項集，並且列出它出現的次數
    model.freqItemsets.collect().foreach(itemset => {
      println(itemset.items.mkString("[", ",", "]") + "," + itemset.freq)
    })

如果不放心可以看看自己的頻繁項集都是什麼樣子的

val Arrayrec = new ArrayBuffer[String];
    model.generateAssociationRules(minConfidence).collect().foreach(rule => {
      if (rule.antecedent.length.==(1)) {
        println(rule.antecedent.mkString + "-->" +
          rule.consequent.mkString + "-->" + rule.confidence)
        val rec = rule.antecedent.mkString + "," + rule.consequent.mkString+","+rule.confidence

        Arrayrec += rec
      }
    })

可以打印出來看看，其中的關聯規則都是怎麼樣子的。antecedent表示前項，consequent表示後項，
，confidence表示規則的置信度。

12539-->13345-->1.0
12539-->12551-->1.0
12539-->13705-->1.0
12539-->13695-->1.0
12539-->12533-->1.0
12539-->13697-->1.0
12539-->12535-->1.0

大概的規則就是這樣了，因為我自己的需要，我選擇了前項是1的。
資料還是要儲存的，寫個函式存到mysql裡邊，就可以之前前臺查詢了

 def writeRecResultToMysql(uid: ArrayBuffer[String], sqlContext: SQLContext, sc: SparkContext) {
      //val uidString = uid.map(x => x.split(",")(0).toString() + "," + x.split(",")(1).toString())
      import sqlContext.implicits._
      val uidDFArray = sc.parallelize(uid)
      val uidDF = uidDFArray.map(x => x.split(",")).map(x => FpgrowthResult(x(0).trim().toInt, x(1).trim.toInt,x(2).trim().toDouble)).toDF
      uidDF.write.mode(SaveMode.Append).jdbc(jdbcURL, recResultTable_fpGrowth, prop)

    }

要是還想看看規則生成了多少條，也可以列印一下

    println(model.generateAssociationRules(minConfidence).collect().length)

好了，至此簡單的邏輯應該沒什麼問題了。
ps:簡單邏輯實現過程中要是存在什麼問題，還請各位大牛指正

spark機器學習實現之fpgrowth

很久之前就像寫一些關於資料探勘演算法的東西，因為懶現在才開始動手，因為fpgrowth演算法在mlib中的實現相對比較簡單，所以打算先拿它下手。關於fpgrowth的原理本人說的也不專業，推薦這裡主要寫一下在mlib當中，實現的一個過程先上

Spark機器學習系列之13：支援向量機SVM

C−SVM基本公式推導過程下面摘抄一小部分內容（不考慮推導細節的話，基本上能理解C-SVM方法推導的整個流程）. 我們用一個超平面劃分圖中對圖中的兩類資料進行分類，超平面寫成f(x)=wTx+b=0,線上性可分的情況下，我們能找到一

機器學習入門之python實現圖片簡單分類

numbers org 路徑圖片分類 jpg animal 入門 res windows 小任務：實現圖片分類 1.圖片素材 python批量壓縮jpg圖片: PIL庫 resize http://blog.csdn.net/u012234115/article/

掌握Spark機器學習庫-07.6-線性回歸實現房價預測

linear 線性 ack transform regress build count random () 數據集 house.csv 數據概覽代碼 package org.apache.spark.examples.examplesforml import org

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

機器學習演算法之邏輯迴歸以及python實現

下面分為兩個部分： 1. 邏輯迴歸的相關原理說明 2. 通過python程式碼來實現一個梯度下降求解邏輯迴歸過程邏輯迴歸(Logistic Regression) 首先需要說明，邏輯迴歸屬於分類演算法。分類問題和迴歸問題的區別在於，分類問題的輸出是離散

Spark2.0機器學習系列之3：決策樹及Spark 2.0-MLlib、Scikit程式碼分析

概述分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹可以看為一個if-then規則集合，具有“互斥完備”性質。決策樹基本上都是採用的是貪心（即非回溯）的演算法，自頂向下遞迴分治構造。生成決策樹一般包含三個步驟：特徵選擇決策樹生成剪枝

二，機器學習演算法之邏輯迴歸（python實現）

邏輯迴歸（Logistic Regression）是目前流行最廣泛的演算法之一。 1. 何為邏輯迴歸：邏輯迴歸主要思想是根據現有的訓練集(資料)進行分類，判斷這些資料屬於哪一個類別，通

Spark機器學習之特徵提取、選擇、轉換

本節介紹了處理特徵的演算法，大致分為以下幾組： 1、提取：從“原始”資料提取特徵 2、轉換：縮放，轉換或修改要素 3、選擇：從一組較大的要素中選擇一個子集 4、區域性敏感雜湊（LSH）：這類演算法將特徵變換的方面與其他演算法

Spark機器學習之--邏輯迴歸

Spark 利用邏輯迴歸做申請評分卡，上乾貨 val spark=SparkSession.builder().appName("LRTest").master("local[*]").getOrCreate() val sc=spark.sparkContex

Spark機器學習之-實時聚類演算法呼叫

Spark MLIB中的Kmenas聚類演算法，資料通過SparkStreaming 實時拉取kafka中的資料，並呼叫已經訓練好的聚類模型；根據讀取的資料實時的進行分類package com.demo.cn.streaming import org.apache.kafk

機器學習演算法之K-means-spark

1 聚類簡單回顧一下：首先，隨機在點群中選取K個點，作為劃分聚落的種子點；然後，求點群中所有的點到這K個點的距離；接下來，將離種子點近的點都移動到種子點附近；最後，不斷重複第二和第三步，直到沒有點需要移動了。以上只是一個概念的解釋，我想這

機器學習教程之1-感知器(Perceptron)的sklearn實現

0.概述優點：簡單且易於實現缺點： 1.感知器模型如果資料是線性可分的，並且是二分類的，則可以以下函式模型表示輸入到輸出的關係： 2.感知器學習策略將所有誤分點到超平

機器學習教程之13-決策樹（decision tree）的sklearn實現

0.概述決策樹（decision tree）是一種基本的分類與迴歸方法。主要優點：模型具有可讀性，分類速度快。決策樹學習通常包括3個步驟：特徵選擇、決策樹的生成和決策樹的修剪。 1.決策樹模型與學習節點：根節點、子節點；內部節點（inter

機器學習02之BP神經網路圖解及JAVA實現

package com.fei.bp02; public class Bp { private double[] hide1_x;//// 輸入層即第一層隱含層的輸入；hide1_x[資料的特徵數目+1]， hide1_x[0]為1 private

Python 新手實戰之機器學習實現簡單驗證碼識別(一)：用PIL簡單繪製驗證碼

驗證碼生成 from PIL import Image, ImageDraw, ImageFont import random, os def draw(): #隨機生成背景顏色 (RGB顏色範圍為0-255，越高越接近白色)，背景顏色不宜過深，

Spark機器學習之模型選擇和超引數調整

模型選擇（超引數調諧）ML中的一個重要任務是模型選擇，或使用資料找到給定任務的最佳模型或引數。這也叫調音。可以針對個體估算器（如Logistic迴歸）或包括多個演算法，特徵化和其他步驟的整個管道完成調整。使用者可以一次調整整個流水線，而不是單獨調整管道中的每個元素。

Spark機器學習之分類與迴歸

本頁面介紹了分類和迴歸的演算法。它還包括討論特定類別的演算法的部分，如線性方法，樹和集合體。目錄分類 Classification -----------邏輯迴歸 Logistic regression -------------------二項式邏輯迴

Spark機器學習：TF-IDF實現原理

先簡單地介紹下什麼是TF-IDF(詞頻-逆文件頻率)，它可以反映出語料庫中某篇文件中某個詞的重要性。假設t表示某個詞，d表示一篇文件，則詞頻TF(t,d)是某個詞t在文件d中出現的次數，而文件DF(t,D)是包含詞t的文件數目。為了過濾掉常用的片語，如"the" "a" "

機器學習入門之決策樹（python實現）

本次學習利用MT_Train.csv中所給的資料對MT_Test.csv中的資料進行預測，判斷客戶是否會定期存款。根據所學知識，可採用sklearn中的決策樹等方法進行程式設計。歡迎大家一起討論學習進步。訓練集和測試集連結如下：一. 設計思路 1.讀取訓練集和測試集檔

spark機器學習實現之fpgrowth

相關推薦