Spark-MLlib例項——決策樹

阿新 • • 發佈：2019-01-25

Spark-MLlib例項——決策樹

通俗來說，決策樹分類的思想類似於找物件。現想象一個女孩的母親要給這個女孩介紹男朋友，於是有了下面的對話：

女兒：多大年紀了？
母親：26。
女兒：長的帥不帥？
母親：挺帥的。
女兒：收入高不？
母親：不算很高，中等情況。
女兒：是公務員不？
母親：是，在稅務局上班呢。
女兒：那好，我去見見。

以上是決策的經典例子，用spark-mllib怎麼實現訓練與預測呢

1、首先準備測試資料集

訓練資料集 Tree1

欄位說明：

是否見面, 年齡是否帥收入(1 高 2 中等 0 少) 是否公務員

0,32 1 1 0
0,25 1 2 0
1,29 1 2 1
1,24 1 1 0
0,31 1 1 0
1,35 1 2 1
0,30 0 1 0
0,31 1 1 0
1,30 1 2 1
1,21 1 1 0
0,21 1 2 0
1,21 1 2 1
0,29 0 2 1
0,29 1 0 1
0,29 0 2 1
1,30 1 1 0

測試資料集 Tree2

0,32 1 2 0
1,27 1 1 1
1,29 1 1 0
1,25 1 2 1
0,23 0 2 1

2、Spark-MLlib決策樹應用程式碼

import

org.apache.log4j.{Level, Logger}
import org.apache.spark.mllib.feature.HashingTF
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.tree.DecisionTree
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.{SparkConf, SparkContext}
/**
* 決策樹分類
*/
object TreeDemo {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("DecisionTree").setMaster("local")
val sc = new SparkContext(conf)
Logger.getRootLogger.setLevel(Level.WARN)
//訓練資料
val data1 = sc.textFile("data/Tree1.txt")
//測試資料
val data2 = sc.textFile("data/Tree2.txt")
//轉換成向量
val tree1 = data1.map { line =>
val parts = line.split(',')
LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble)))
}
val tree2 = data2.map { line =>
val parts = line.split(',')
LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble)))
}
//賦值
val (trainingData, testData) = (tree1, tree2)
//分類
val numClasses = 2
val categoricalFeaturesInfo = Map[Int, Int]()
val impurity = "gini"
//最大深度
val maxDepth = 5
//最大分支
val maxBins = 32
//模型訓練
val model = DecisionTree.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo,
impurity, maxDepth, maxBins)
//模型預測
val labelAndPreds = testData.map { point =>
val prediction = model.predict(point.features)
(point.label, prediction)
}
//測試值與真實值對比
val print_predict = labelAndPreds.take(15)
println("label" + "\t" + "prediction")
for (i <- 0 to print_predict.length - 1) {
println(print_predict(i)._1 + "\t" + print_predict(i)._2)
}
//樹的錯誤率
val testErr = labelAndPreds.filter(r => r._1 != r._2).count.toDouble / testData.count()
println("Test Error = " + testErr)
//列印樹的判斷值
println("Learned classification tree model:\n" + model.toDebugString)
}
}

3、測試結果：

label prediction
0.0 0.0
1.0 1.0
1.0 1.0
1.0 1.0
0.0 0.0
Test Error = 0.0
Learned classification tree model:

可見真實值與預測值一致，Error為0

列印決策樹的分支值，這裡最大深度為 5 ，對應的樹結構：

Learned classification tree model:
DecisionTreeModel classifier of depth 4 with 11 nodes
If (feature 1 <= 0.0)
Predict: 0.0
Else (feature 1 > 0.0)
If (feature 3 <= 0.0)
If (feature 0 <= 30.0)
If (feature 2 <= 1.0)
Predict: 1.0
Else (feature 2 > 1.0)
Predict: 0.0
Else (feature 0 > 30.0)
Predict: 0.0
Else (feature 3 > 0.0)
If (feature 2 <= 0.0)
Predict: 0.0
Else (feature 2 > 0.0)
Predict: 1.0

可見預測出的分界值與真實一致，準確率與決策樹演算法，引數設定及訓練樣本的選擇覆蓋有關！

Spark-MLlib例項——決策樹

Spark-MLlib例項——決策樹通俗來說，決策樹分類的思想類似於找物件。現想象一個女孩的母親要給這個女孩介紹男朋友，於是有了下面的對話：女兒：多大年紀了？母親：26。女兒：長的帥不帥？母親：挺帥的。女兒：收入高不？母親：不算很高，中等情況。女兒：是公務員

Python Spark MLlib 之決策樹迴歸分析

資料準備場景：預測共享單車租借數量。特徵：季節、月份、時間（0~23）、節假日、星期、工作日、天氣、溫度、體感溫度、溼度、風速預測目標：每一小時的單車租用數量 1、下載資料集並開啟終端輸入命令 cd ~/pythonwork/Pyth

Spark MLlib之決策樹（DecisioinTree）

程式碼： /** * Created by hadoop on 16-7-3. */ import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.mllib.tree.Decisi

大資料----Spark中的決策樹及 SVM 建模

#一、演算法解釋 ~~~~~~~使用決策樹二元分類分析StumbleUpon資料集，預測網頁是暫時性（Ephemeral）或是長青的（Evergreen）， ~~~~~~~並且調校引數找出最佳引數組合，提高預測準確度。決策樹的優點：條例清晰、方法簡單、易於理解、

MLlib中決策樹演算法的實現原理解析

決策樹作為一種分類迴歸演算法，在處理非線性、特徵值缺少的資料方面有很多的優勢，能夠處理不相干的特徵，並且對分類的結果通過樹的方式有比較清晰的結構解釋，但是容易過擬合，針對這個問題，可以採取對樹進行剪枝的方式，還有一些融合整合的解決方案，比如隨機森林RandomForest

全面解析Apache Spark中的決策樹

Apache Spark中的決策樹決策樹是在順序決策問題進行分類，預測和促進決策的有效方法。決策樹由兩部分組成：決策(Desion) 結果(Outcome) 決策樹包含三種類型的節點：根節點(Root node)：包含所有資料的樹的頂層節點。分割節點(Splitting node

Spark 2.x 決策樹示例程式碼-IRIS資料集

資料集下載下載連結程式碼 package Iris; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import o

spark廈大---決策樹分類器 -- spark.ml

來源：http://mocom.xmu.edu.cn/article/show/58667ae3aa2c3f280956e7b0/0/1 一、方法簡介決策樹（decision tree）是一種基本的分類與迴歸方法，這裡主要介紹用於分類的決策樹。決策樹模式呈樹形結

【Spark MLlib速成寶典】模型篇05決策樹【Decision Tree】（Python版）

back filter oms sse mlu eval ffffff size red 目錄　　決策樹原理　　決策樹代碼(Spark Python) 決策樹原理　　詳見博文：http://www.cnblogs.com/itmorn/p/79

Spark2.0機器學習系列之3：決策樹及Spark 2.0-MLlib、Scikit程式碼分析

概述分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹可以看為一個if-then規則集合，具有“互斥完備”性質。決策樹基本上都是採用的是貪心（即非回溯）的演算法，自頂向下遞迴分治構造。生成決策樹一般包含三個步驟：特徵選擇決策樹生成剪枝

梯度迭代樹（GBDT）演算法原理及Spark MLlib呼叫例項（Scala/Java/python）

梯度迭代樹演算法簡介：梯度提升樹是一種決策樹的整合演算法。它通過反覆迭代訓練決策樹來最小化損失函式。決策樹類似，梯度提升樹具有可處理類別特徵、易擴充套件到多分類問題、不需特徵縮放等性質。Spark.ml通過使用現有decision tree工具來實現。

Apache Spark MLlib學習筆記（六）MLlib決策樹類演算法原始碼解析 2

上篇說道建立分類決策樹模型呼叫了trainClassifier方法，這章分析trainClassifier方法相關內容按照以下路徑開啟原始碼檔案： /home/yangqiao/codes/spark/mllib/src/main/scala/org/ap

spark(1.1) mllib 原始碼分析(三)-決策樹

本文主要以mllib 1.1版本為基礎，分析決策樹的基本原理與原始碼一、基本原理二、原始碼分析　　1、決策樹構造　　　　指定決策樹訓練資料集與策略（Strategy）通過train函式就能得到決策樹模型DecisionTreeModel 　　　　決策樹策略包含

Spark機器學習(6)：決策樹算法

projects 信息 txt .cn import n) .com util seq 1. 決策樹基本知識決策樹就是通過一系列規則對數據進行分類的一種算法，可以分為分類樹和回歸樹兩類，分類樹處理離散變量的，回歸樹是處理連續變量。樣本一般都有很多個特征，有的特征對分

我的spark python 決策樹實例

one ray print classes gin array erro parallel depth from numpy import array from pyspark.mllib.regression import LabeledPoint from pyspa

Spark 決策樹--回歸模型

pipe sele nal evaluate 回歸 textfile style mode ssi package Spark_MLlib import org.apache.spark.ml.Pipeline import org.apache.spark.ml.ev

Spark-MLlib的快速使用之五（梯度提升樹GBT 迴歸）

（1）描述　梯度提升樹（GBT）是決策樹的集合。 GBT迭代地訓練決策樹以便使損失函式最小化。 spark.ml實現支援GBT用於二進位制分類和迴歸，可以使用連續和分類特徵。（2）測試資料 1 153:5 154:63 155:197 181:20 182:254 183:230 1

Spark-MLlib的快速使用之四（梯度提升樹GBT 分類）

決策樹例項

import numpy as np from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import classification_report def load_data(): from sklea

決策樹、隨機森林整合演算法（Titanic例項）

#coding:utf-8 import pandas #ipython notebook titanic = pandas.read_csv("titanic_train.csv") titanic.head(5) #print (titanic.describe()) t

Spark-MLlib例項——決策樹

相關推薦