Spark 2.x 決策樹示例程式碼-IRIS資料集

阿新 • • 發佈：2019-02-13

資料集下載

程式碼

package Iris;

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.ml.Pipeline;
import org.apache.spark.ml.PipelineModel;
import org.apache.spark.ml.PipelineStage;
import org.apache.spark.ml.Transformer;
import org.apache 
.spark.ml.classification.DecisionTreeClassificationModel;
import org.apache.spark.ml.classification.DecisionTreeClassifier;
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator;
import org.apache.spark.ml.feature.*;
import org.apache.spark.ml.linalg.VectorUDT;
import org.apache.spark 
.ml.linalg.Vectors;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.Metadata;
import org.apache.spark.sql.types.StructField 
;
import org.apache.spark.sql.types.StructType;
import scala.Tuple2;
import util.InitSparkUtil;

import java.util.HashMap;
import java.util.Map;

/**
 * Created by xy on 2018/4/20.
 */
public class IrisDT {

    public static final String[] iris = new String[]{"Iris_setosa", "Iris_versicolor", "Iris_virginica"};

    public static void irisDT() {
        //1、構造SparkSession
        InitSparkUtil initSparkUtil = new InitSparkUtil();
        SparkSession spark = initSparkUtil.getSparkSession("irisDT");
        //2、載入資料
        Dataset<Row> data = spark.read().csv("E:\\idea工程\\data\\iris.csv");
        data = data.toDF("Sepal_Length", "Sepal_Width", "Petal_Length", "Petal_Width", "Species");
        JavaRDD<String> dataRdd = data.toJavaRDD().map(x -> x.toString().replace("[", "").replace("]", ""));
        //3、把資料轉為Row的形式
        JavaRDD<Row> irisRowRDD = dataRdd.map(x -> x.split(",")).map(x -> {
            double[] ds = new double[x.length - 1];
            for (int i = 0; i < x.length - 1; i++) {
                ds[i] = Double.parseDouble(x[i]);
            }
            return RowFactory.create(Vectors.dense(ds), x[x.length - 1].replace("-", "_"));
        });
        //4、定義StructType
        StructType schema = new StructType(new StructField[]{new StructField("features", new VectorUDT(), false, Metadata.empty()), new StructField("label", DataTypes.StringType, false, Metadata.empty())});
        //5、分層抽樣
        JavaRDD<Row> trainDataRDD = stratifiedSample(irisRowRDD);
        JavaRDD<Row> testDataRDD = irisRowRDD.subtract(trainDataRDD);
        Dataset<Row> trainData = spark.createDataFrame(trainDataRDD, schema);
        Dataset<Row> testData = spark.createDataFrame(testDataRDD, schema);
        Dataset<Row> fullData = trainData.union(testData);
        fullData.cache();
        trainData.show(150);
        testData.show(150);
        fullData.show(2000);
        /**
         * 6、fit方法都會產生一個Model。把特徵列進行索引，即列的不同值小於4的，就轉為Int型離散變數，不然就認為是連續值。
         * InputCol裡面的值要和StructType裡面的對應上。
         */
        VectorIndexerModel featureIndexer = new VectorIndexer().setInputCol("features").setMaxCategories(4).setOutputCol("indexedFeatures").fit(fullData);
        Dataset<Row> featureIndexData = featureIndexer.transform(fullData);
        featureIndexData.show(200);
        /**
         * 7、StringIndexer:把類別這一列，由String轉為標籤，便於計算，即變為int型的離散變數，從0開始。
         * 索引的順序是頻率，頻率最大的為0.
         */
        StringIndexerModel labelIndexer = new StringIndexer().setInputCol("label").setOutputCol("indexedLabel").fit(fullData);
        Dataset<Row> labelIndexData = labelIndexer.transform(fullData);
        labelIndexData.show(200);
        //8、把預測的類別重新轉為String型
        IndexToString labelConverter = new IndexToString().setInputCol("prediction").setOutputCol("predictedLabel").setLabels(labelIndexer.labels());
        /**
         * 9、建立決策樹。setMaxDepth：設定最大深度；setMinInfoGain：最小資訊增益；
         * setMinInstancesPerNode：某個節點的樣本數小於該值，就不再被分叉。
         * setImpurity：使用什麼樣的增益演算法，gini是Gini不純度，entropy是資訊熵。
         */
        DecisionTreeClassifier dtClassifier = new DecisionTreeClassifier().setLabelCol("indexedLabel").setFeaturesCol("indexedFeatures").setMaxDepth(20).setMinInfoGain(0.00001).setMinInstancesPerNode(1).setImpurity("gini");
        //建立Pipeline
        Pipeline pipeline = new Pipeline().setStages(new PipelineStage[]{labelIndexer, featureIndexer, dtClassifier, labelConverter});
        /**
         *Pipeline的2個方法：
         * fit：傳入DF進行訓練併產生模型，意思就是對資料進行一些統計學習規律，最後得到一個模型。
         * transform：將一個DF轉為另一個DF，對資料進行操作，可以對資料進行轉換，進行預測等。
         */
        //訓練
        PipelineModel modelClassifier = pipeline.fit(trainData);
        //預測
        Dataset<Row> predictionClassifier = modelClassifier.transform(testData);
        predictionClassifier.select("predictedLabel", "label", "features").show(200);
        //評估
        MulticlassClassificationEvaluator evaluator = new MulticlassClassificationEvaluator().setLabelCol("indexedLabel").setPredictionCol("prediction").setMetricName("accuracy");
        double accuracy = evaluator.evaluate(predictionClassifier);
        System.out.println(accuracy);
        //模型結構
        Transformer dtModel = modelClassifier.stages()[2];
        DecisionTreeClassificationModel treeClassModel = (DecisionTreeClassificationModel) dtModel;
        String treeModelStruct = treeClassModel.toDebugString();
        System.out.println(treeModelStruct);

        fullData.unpersist();
    }

    protected static JavaRDD<Row> stratifiedSample(JavaRDD<Row> irisRowRDD) {
        JavaPairRDD<String, Row> pariRDD = irisRowRDD.mapToPair(x -> new Tuple2<>(x.getString(1), x));
        Map<String, Double> fractions = new HashMap<>();
        for (int i = 0; i < iris.length; i++) {
            fractions.put(iris[i], 0.8);
        }
        JavaRDD<Row> trainRDD = pariRDD.sampleByKeyExact(false, fractions, 0).map(x -> x._2);
        return trainRDD;
    }

    public static void main(String[] args) {
        irisDT();
    }
}

package util;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SparkSession;

/**
 * 初始化spark類
 */
public class InitSparkUtil {

    private JavaSparkContext sc;

    public SparkSession getSparkSession(String appname) {
        SparkConf conf = new SparkConf().setMaster("local");
        SparkSession spark = SparkSession.builder().appName(appname).config(conf).getOrCreate();
        return spark;
    }

    public JavaSparkContext getSc(String appname) {
        SparkConf conf = new SparkConf().setMaster("local").setAppName(appname);
        this.sc = new JavaSparkContext(conf);
        return sc;
    }

}

Spark 2.x 決策樹示例程式碼-IRIS資料集

資料集下載下載連結程式碼 package Iris; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import o

基於決策樹模型對 IRIS 資料集分類

基於決策樹模型對 IRIS 資料集分類文章目錄基於決策樹模型對 IRIS 資料集分類 1 python 實現載入資料集視覺化資料集分類和預測計算準確率 2 基於MATLA

R_Studio(決策樹演算法)鳶尾花卉資料集Iris是一類多重變數分析的資料集

　　　鳶尾花卉資料集Iris是一類多重變數分析的資料集。通過花萼長度，花萼寬度，花瓣長度，花瓣寬度4個屬性預測鳶尾花卉屬於（Setosa，Versicolour，Virginica）三個種類中的哪一類　　針對iris資料集實踐決策樹演算法(C4.5、C5.0

Spark2.0機器學習系列之3：決策樹及Spark 2.0-MLlib、Scikit程式碼分析

概述分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹可以看為一個if-then規則集合，具有“互斥完備”性質。決策樹基本上都是採用的是貪心（即非回溯）的演算法，自頂向下遞迴分治構造。生成決策樹一般包含三個步驟：特徵選擇決策樹生成剪枝

將程式碼從 spark 1.x 移植到 spark 2.x

1. SparkSession sparkSession可以視為sqlContext和hiveContext以及StreamingContext的結合體，這些Context的API都可以通過sparkSession使用。建立SparkSession val

用決策樹(CART)解決iris分類問題

datasets oba 可能 rom art PE 子集花卉調用首先先看Iris數據集 Sepal.Length——花萼長度 Sepal.Width——花萼寬度 Petal.Length——花瓣長度 Petal.Width——花瓣寬度通過上述4中屬性可以預測花卉屬

機器學習實戰（2）-決策樹

構建決策樹最重要的是分裂屬性的選取,重要的是每個屬性在節點的位置，比如說第一個節點屬性為什麼是A而不是B。分裂屬性就是在某個節點處按照某一特徵屬性的不同劃分構造不同的分支，其目標是讓各個分裂子集更加的純，所謂的純是指儘量讓一個分裂子集中待分類項屬於同一類別。判斷純的方法有ID3，C4.5，CART演算法。&n

spark 2.X 疑難問題匯總

cto package 需要相關配置 ipc nag manage 內容 state 當前spark任務都是運行在yarn上，所以不用啟動長進程worker，也沒有master的HA問題，所以主要的問題在任務執行層面。作業故障分類故障主要分為版本，內存和權限三方面。 -

Spark 2.x 提交Job原始碼淺析

大家都知道，spark job的提交是觸發了Action操作，現在我在RDD.scala中找到collect運算元，在這下面是有一個runjob方法 def collect(): Array[T] = withScope { val results = sc.runJob(th

Python Spark MLlib 之決策樹迴歸分析

資料準備場景：預測共享單車租借數量。特徵：季節、月份、時間（0~23）、節假日、星期、工作日、天氣、溫度、體感溫度、溼度、風速預測目標：每一小時的單車租用數量 1、下載資料集並開啟終端輸入命令 cd ~/pythonwork/Pyth

機器學習實戰程式碼_Python3.6_決策樹_程式碼

決策樹程式碼 from math import log import operator def calc_shannon_ent(data_set): num_entries = len(data_set) label_counts =

spark 2.X學習筆記

一課程導讀 1 課程目標目標：熟悉Spark相關概念目標：搭建Spark叢集目標：編寫簡單的Spark應用程式 2 Spark概述什麼是Spark（官網：http://spark.

【python和機器學習入門2】決策樹3——使用決策樹預測隱形眼鏡型別

參考部落格：決策樹實戰篇之為自己配個隱形眼鏡（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第三章3.4

【python和機器學習入門2】決策樹2——決策樹構建

參考部落格：決策樹實戰篇之為自己配個隱形眼鏡（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第三章

OpenCV 3計算機視覺 Python語言實現(第2版)（含示例程式碼）PDF

OpenCV 3計算機視覺 Python語言實現(第2版)（含示例程式碼）建議購買正版，支援作者完整pdf下載百度網盤連結：https://pan.baidu.com/s/1kUYNN66nsVWBB5Y5cZ06kw 提取碼：u7nv 原始碼下載地址完整專案

《Machine Learning in Action》| 第2章決策樹

決策樹調包 import numpy as np import matplotlib.pyplot as plt import operator from matplotlib.font_manager import FontProperties 3.1.決

Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）

Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）全套課程下載：https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取碼: 9n1x 本門課程來源於一線生產專案，所有程式碼都是在現網大資料叢集上穩定執行，拒絕Demo。課程涵蓋了離線分析

Spark 2.x企業級大數據項目實戰（實時統計、離線分析和實時ETL）

sql表中完成行數據 text rtt stream context 查找保存 Spark 2.x企業級大數據項目實戰（實時統計、離線分析和實時ETL）全套課程下載：https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取碼

大資料----Spark中的決策樹及 SVM 建模

#一、演算法解釋 ~~~~~~~使用決策樹二元分類分析StumbleUpon資料集，預測網頁是暫時性（Ephemeral）或是長青的（Evergreen）， ~~~~~~~並且調校引數找出最佳引數組合，提高預測準確度。決策樹的優點：條例清晰、方法簡單、易於理解、

Spark 2.x 提交原始碼淺析

大家都知道，spark job的提交是觸發了Action操作，現在我在RDD.scala中找到collect運算元，在這下面是有一個runjob方法 def collect(): Array[T] = withScope { val results =

Spark 2.x 決策樹 示例程式碼-IRIS資料集

資料集下載

程式碼

相關推薦

Spark 2.x 決策樹示例程式碼-IRIS資料集