Spark Mllib測試

阿新 • • 發佈：2018-11-04

一、FPGrowth演算法理解

Spark.mllib 提供並行FP-growth演算法，這個演算法屬於關聯規則演算法【關聯規則：兩不相交的非空集合A、B，如果A=>B，就說A=>B是一條關聯規則，常提及的{啤酒}-->{尿布}就是一條關聯規則】，經常用於挖掘頻度物品集。關於演算法的介紹網上很多，這裡不再贅述。主要搞清楚幾個概念：

1)支援度support(A => B) = P(AnB) = |A n B| / |N|，表示資料集D中，事件A和事件B共同出現的概率；

2)置信度confidence(A => B) = P(B|A) = |A n B| / |A|，表示資料集D中，出現事件A的事件中出現事件B的概率；

3）提升度lift(A => B) = P(B|A):P(B) = |A n B| / |A| : |B| / |N|，表示資料集D中，出現A的條件下出現事件B的概率和沒有條件A出現B的概率；

由上可以看出，支援度表示這條規則的可能性大小，而置信度表示由事件A得到事件B的可信性大小。

舉個列子：10000個消費者購買了商品，尿布1000個，啤酒2000個，同時購買了尿布和啤酒800個。

1)支援度：在所有項集中出現的可能性，項集同時含有，x與y的概率。尿布和啤酒的支援度為：800/10000=8%

2)置信度：在X發生的條件下，Y發生的概率。尿布-》啤酒的置信度為:800/1000=80%，啤酒-》尿布的置信度為：800/2000=40%

3)提升度：在含有x條件下同時含有Y的可能性（x->y的置信度）比沒有x這個條件下含有Y的可能性之比：confidence(尿布=> 啤酒)/概率(啤酒)) = 80%/(2000/10000) 。如果提升度=1，那就是沒啥關係這兩個

通過支援度和置信度可以得出強關聯關係，通過提升的，可判別有效的強關聯關係。

直接拿例子來說明問題。首先資料集如下：

r z h k p
z y x w v u t s
s x o n r
x z y m t s q e
z
x z y r q t p

二、程式碼實現。在IDEA中建立Maven工程，然後本地模式除錯程式碼如下：

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.mllib.fpm.AssociationRules;
import org.apache.spark.mllib.fpm.FPGrowth;
import org.apache.spark.mllib.fpm.FPGrowthModel;
import java.util.Arrays;
import java.util.List;
public class FPDemo {
public static void main(String[] args){
String data_path; //資料集路徑
double minSupport = 0.2;//最小支援度
int numPartition = 10; //資料分割槽
double minConfidence = 0.8;//最小置信度
if(args.length < 1){
System.out.println("<input data_path>");
System.exit(-1);
}
data_path = args[0];
if(args.length >= 2)
minSupport = Double.parseDouble(args[1]);
if(args.length >= 3)
numPartition = Integer.parseInt(args[2]);
if(args.length >= 4)
minConfidence = Double.parseDouble(args[3]);
SparkConf conf = new SparkConf().setAppName("FPDemo").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);
//載入資料，並將資料通過空格分割
JavaRDD<List<String>> transactions = sc.textFile(data_path)
.map(new Function<String, List<String>>() {
public List<String> call(String s) throws Exception {
String[] parts = s.split(" ");
return Arrays.asList(parts);
}
});
//建立FPGrowth的演算法例項，同時設定好訓練時的最小支援度和資料分割槽
FPGrowth fpGrowth = new FPGrowth().setMinSupport(minSupport).setNumPartitions(numPartition);
FPGrowthModel<String> model = fpGrowth.run(transactions);//執行演算法
//檢視所有頻繁諅，並列出它出現的次數
for(FPGrowth.FreqItemset<String> itemset : model.freqItemsets().toJavaRDD().collect())
System.out.println("[" + itemset.javaItems() + "]," + itemset.freq());
//通過置信度篩選出強規則
//antecedent表示前項
//consequent表示後項
//confidence表示規則的置信度
for(AssociationRules.Rule<String> rule : model.generateAssociationRules(minConfidence).toJavaRDD().collect())
System.out.println(rule.javaAntecedent() + "=>" + rule.javaConsequent() + ", " + rule.confidence());
}
}

直接在Maven工程中運用上面的程式碼會有問題，因此這裡需要新增依賴項解決專案中的問題，依賴項的新增如下：

<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>2.1.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-mllib_2.10</artifactId>
<version>2.1.0</version>
</dependency>
</dependencies>

本地模式執行的結果如下：

[t, s, y]=>[x], 1.0
[t, s, y]=>[z], 1.0
[y, x, z]=>[t], 1.0
[y]=>[x], 1.0
[y]=>[z], 1.0
[y]=>[t], 1.0
[p]=>[r], 1.0
[p]=>[z], 1.0
[q, t, z]=>[y], 1.0
[q, t, z]=>[x], 1.0
[q, y]=>[x], 1.0
[q, y]=>[z], 1.0
[q, y]=>[t], 1.0
[t, s, x]=>[y], 1.0
[t, s, x]=>[z], 1.0
[q, t, y, z]=>[x], 1.0
[q, t, x, z]=>[y], 1.0
[q, x]=>[y], 1.0
[q, x]=>[t], 1.0
[q, x]=>[z], 1.0
[t, x, z]=>[y], 1.0
[x, z]=>[y], 1.0
[x, z]=>[t], 1.0
[p, z]=>[r], 1.0
[t]=>[y], 1.0
[t]=>[x], 1.0
[t]=>[z], 1.0
[y, z]=>[x], 1.0
[y, z]=>[t], 1.0
[p, r]=>[z], 1.0
[t, s]=>[y], 1.0
[t, s]=>[x], 1.0
[t, s]=>[z], 1.0
[q, z]=>[y], 1.0
[q, z]=>[t], 1.0
[q, z]=>[x], 1.0
[q, y, z]=>[x], 1.0
[q, y, z]=>[t], 1.0
[y, x]=>[z], 1.0
[y, x]=>[t], 1.0
[q, x, z]=>[y], 1.0
[q, x, z]=>[t], 1.0
[t, y, z]=>[x], 1.0
[q, y, x]=>[z], 1.0
[q, y, x]=>[t], 1.0
[q, t, y, x]=>[z], 1.0
[t, s, x, z]=>[y], 1.0
[s, y, x]=>[z], 1.0
[s, y, x]=>[t], 1.0
[s, x, z]=>[y], 1.0
[s, x, z]=>[t], 1.0
[q, y, x, z]=>[t], 1.0
[s, y]=>[x], 1.0
[s, y]=>[z], 1.0
[s, y]=>[t], 1.0
[q, t, y]=>[x], 1.0
[q, t, y]=>[z], 1.0
[t, y]=>[x], 1.0
[t, y]=>[z], 1.0
[t, z]=>[y], 1.0
[t, z]=>[x], 1.0
[t, s, y, x]=>[z], 1.0
[t, y, x]=>[z], 1.0
[q, t]=>[y], 1.0
[q, t]=>[x], 1.0
[q, t]=>[z], 1.0
[q]=>[y], 1.0
[q]=>[t], 1.0
[q]=>[x], 1.0
[q]=>[z], 1.0
[t, s, z]=>[y], 1.0
[t, s, z]=>[x], 1.0
[t, x]=>[y], 1.0
[t, x]=>[z], 1.0
[s, z]=>[y], 1.0
[s, z]=>[x], 1.0
[s, z]=>[t], 1.0
[s, y, x, z]=>[t], 1.0
[s]=>[x], 1.0
[t, s, y, z]=>[x], 1.0
[s, y, z]=>[x], 1.0
[s, y, z]=>[t], 1.0
[q, t, x]=>[y], 1.0
[q, t, x]=>[z], 1.0
[r, z]=>[p], 1.0

三、Spark叢集部署。程式碼修改正如：

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.mllib.fpm.AssociationRules;
import org.apache.spark.mllib.fpm.FPGrowth;
import org.apache.spark.mllib.fpm.FPGrowthModel;
import java.util.Arrays;
import java.util.List;
public class FPDemo {
public static void main(String[] args){
String data_path; //資料集路徑
double minSupport = 0.2;//最小支援度
int numPartition = 10; //資料分割槽
double minConfidence = 0.8;//最小置信度
if(args.length < 1){
System.out.println("<input data_path>");
System.exit(-1);
}
data_path = args[0];
if(args.length >= 2)
minSupport = Double.parseDouble(args[1]);
if(args.length >= 3)
numPartition = Integer.parseInt(args[2]);
if(args.length >= 4)
minConfidence = Double.parseDouble(args[3]);
SparkConf conf = new SparkConf().setAppName("FPDemo");////修改的地方
JavaSparkContext sc = new JavaSparkContext(conf);
//載入資料，並將資料通過空格分割
JavaRDD<List<String>> transactions = sc.textFile(data_path)
.map(new Function<String, List<String>>() {
public List<String> call(String s) throws Exception {
String[] parts = s.split(" ");
return Arrays.asList(parts);
}
});
//建立FPGrowth的演算法例項，同時設定好訓練時的最小支援度和資料分割槽
FPGrowth fpGrowth = new FPGrowth().setMinSupport(minSupport).setNumPartitions(numPartition);
FPGrowthModel<String> model = fpGrowth.run(transactions);//執行演算法
//檢視所有頻繁諅，並列出它出現的次數
for(FPGrowth.FreqItemset<String> itemset : model.freqItemsets().toJavaRDD().collect())
System.out.println("[" + itemset.javaItems() + "]," + itemset.freq());
//通過置信度篩選出強規則
//antecedent表示前項
//consequent表示後項
//confidence表示規則的置信度
for(AssociationRules.Rule<String> rule : model.generateAssociationRules(minConfidence).toJavaRDD().collect())
System.out.println(rule.javaAntecedent() + "=>" + rule.javaConsequent() + ", " + rule.confidence());
}
}

然後在IDEA中打包成JAR包

然後在工具欄

生成Jar包，然後上傳到叢集中執行命令

得到結果

Spark Mllib測試

一、FPGrowth演算法理解 Spark.mllib 提供並行FP-growth演算法，這個演算法屬於關聯規則演算法【關聯規則：兩不相交的非空集合A、B，如果A=>B，就說A=>B是一條關聯規則，常提及的{啤酒}-->{

spark mllib和ml類裏面的區別

回歸 ati pam return lec ref nsf 有變 onf mllib是老的api，裏面的模型都是基於RDD的，模型使用的時候api也是有變化的(model這裏是naiveBayes)，（1：在模型訓練的時候是naiveBayes.run(data

Spark MLlib介紹

常用技術分享機器學習 mach 同時 ssi bsp 需要回歸 Spark MLlib介紹 Spark之所以在機器學習方面具有得天獨厚的優勢，有以下幾點原因：（1）機器學習算法一般都有很多個步驟叠代計算的過程，機器學習的計算需要在多次叠代後獲得足夠小的誤差或者足夠收

機器學習講座，如何利用Spark MLlib進行個性推薦？

spark mllib 隨著互聯網發展，更多電商網站更加提倡用戶參與和用戶貢獻。而在現今的推薦技術和算法中，最被大家廣泛認可和采用的就是基於協同過濾的推薦方法。這種在信息過濾和信息系統中很受歡迎的技術，與傳統的基於內容過濾直接分析內容進行推薦不同。協同過濾分析用戶興趣，在用戶群中找到指定用戶的相似（興

如何利用Spark MLlib進行個性推薦？

個性推薦在現今的推薦技術和算法中，最被大家廣泛認可和采用的就是基於協同過濾的推薦方法。協同過濾(Collaborative Filtering, 簡稱CF) 是利用集體智慧的一個典型方法。換句話說，就是借鑒和你相關人群的觀點來進行推薦。MLlib中的協同過濾，常應用於推薦系統。利用某興趣相投、擁有共同經驗之群

ANN in spark MLLib

如果學習 ont res mnist object ast builder dom 神經網絡模型每個node包含兩種操作：線性變換（仿射變換）和激發函數（activation function）。其中仿射變換是通用的，而激發函數可以很多種，如下圖。 MLLib中實

Spark MLlib之使用Breeze操作矩陣向量

nds 求解 package cep 步長 ani 最小值 create 應該這下面的練習中，需要自己將spark的jar包添加進來。在使用Breeze 庫時，需要導入相關包： import breeze.linalg._ import breeze.numeri

Spark MLlib模型（一）支持向量機【Support Vector Machine】

ssi p s ext edi sgd 訓練集 turn cati eight 目錄　　支持向量機原理　　支持向量機代碼(Spark Python) 支持向量機原理　　待續... 返回目錄支持向量機代碼(Spark Pytho

【Spark MLlib速成寶典】模型篇04樸素貝葉斯【Naive Bayes】（Python版）

width pla evaluate 特征 mem order 一個數 ble same 目錄　　樸素貝葉斯原理　　樸素貝葉斯代碼(Spark Python) 樸素貝葉斯原理　　詳見博文：http://www.cnblogs.com/itmor

【Spark MLlib速成寶典】模型篇05決策樹【Decision Tree】（Python版）

back filter oms sse mlu eval ffffff size red 目錄　　決策樹原理　　決策樹代碼(Spark Python) 決策樹原理　　詳見博文：http://www.cnblogs.com/itmorn/p/79

Spark MLlib 之 Vector向量深入淺出

org 格式 types 有監督 sea text posit blog get Spark MLlib裏面提供了幾種基本的數據類型，雖然大部分在調包的時候用不到，但是在自己寫算法的時候，還是很需要了解的。MLlib支持單機版本的local vectors向量和marti

Spark MLlib 之 aggregate和treeAggregate從原理到應用

數據量 hash oom 向上 gre require 圖片 iterator reac 在閱讀spark mllib源碼的時候，發現一個出鏡率很高的函數——aggregate和treeAggregate，比如matrix.columnSimilarities()中。為了

Spark MLlib 之大規模數據集的相似度計算原理探索

tis afr 廣播圖片 times 導致 coord 向量校驗無論是ICF基於物品的協同過濾、UCF基於用戶的協同過濾、基於內容的推薦，最基本的環節都是計算相似度。如果樣本特征維度很高或者<user, item, score>的維度很大，都會導致無法直

14.spark mllib之快速入門

獨立性 num 索引 ecos ive 組成 compute || eat 簡介 ??MLlib是Spark提供提供機器學習的庫，專為在集群上並行運行的情況而設計。MLlib包含很多機器學習算法，可在Spark支持的所有編程語言中使用。 ??MLlib設計理念是將數據以RD

Spark MLlib之水塘抽樣算法（Reservoir Sampling）

抽樣返回算法蓄水池抽樣 seq pack param long nds 1.理解　　問題定義可以簡化如下：在不知道文件總行數的情況下，如何從文件中隨機的抽取一行？　　首先想到的是我們做過類似的題目嗎?當然，在知道文件行數的情況下，我們可以很容易的用C運行庫的rand

在Java Web中使用Spark MLlib訓練的模型

PMML是一種通用的配置檔案，只要遵循標準的配置檔案，就可以在Spark中訓練機器學習模型，然後再web介面端去使用。目前應用最廣的就是基於Jpmml來載入模型在javaweb中應用，這樣就可以實現跨平臺的機器學習應用了。訓練模型首先在spark MLlib中使用mllib包下的邏輯迴歸

Spark-MLlib的快速使用之六（迴歸分析之邏輯迴歸）

（1）演算法描述邏輯迴歸（Logistic Regression）是用於處理因變數為分類變數的迴歸問題，常見的是二分類或二項分佈問題，也可以處理多分類問題，它實際上是屬於一種分類方法（2）測試資料 1 1:-0.222222 2:0.5 3:-0.762712 4:-0.833333

Spark-MLlib的快速使用之五（梯度提升樹GBT 迴歸）

（1）描述　梯度提升樹（GBT）是決策樹的集合。 GBT迭代地訓練決策樹以便使損失函式最小化。 spark.ml實現支援GBT用於二進位制分類和迴歸，可以使用連續和分類特徵。（2）測試資料 1 153:5 154:63 155:197 181:20 182:254 183:230 1

Spark-MLlib的快速使用之四（梯度提升樹GBT 分類）

Spark-MLlib的快速使用之三（隨機森林）

（1）描述資訊隨機森林演算法是機器學習、計算機視覺等領域內應用極為廣泛的一個演算法，它不僅可以用來做分類，也可用來做迴歸即預測，隨機森林機由多個決策樹構成，相比於單個決策樹演算法，它分類、預測效果更好，不容易出現過度擬合的情況。隨機森林演算法基於決策樹，在正式講解隨機森林演算法之前，先來

Spark Mllib測試

相關推薦