Spark MLlib之決策樹（DecisioinTree）

阿新 • • 發佈：2019-01-01

程式碼：

/**
 * Created by hadoop on 16-7-3.
 */

import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.mllib.tree.DecisionTree
//import org.apache.spark.mllib.tree.model.DecisionTreeModel
import org.apache.spark.mllib.util.MLUtils

object DT {
  def main (args: Array[String]){

    val conf =  new SparkConf().setMaster("local").setAppName("DecisonTree")
//    val conf =  new SparkConf().setMaster("spark://192.168.0.100:7077").setAppName("DecisonTree")
    val sc = new SparkContext(conf)

    // Load and parse the data file.
//    val data = MLUtils.loadLibSVMFile(sc, "/home/hadoop/桌面/kdd_split2.txt")
    val data = MLUtils.loadLibSVMFile(sc, "hdfs://192.168.0.100:9000/spark/dt/kdd_split2.txt")

    // Split the data into training and test sets (30% held out for testing)
    val splits = data.randomSplit(Array(0.7, 0.3))
    val (trainingData, testData) = (splits(0), splits(1))

    // Train a DecisionTree model.
    //  Empty categoricalFeaturesInfo indicates all features are continuous.
    val numClasses = 5   //***********************分類數目
    val categoricalFeaturesInfo = Map[Int, Int]()//設定輸入資料的格式
    val impurity = "gini"  //設定資訊增益計算方式，這裡採用gini不純度
    val maxDepth = 5  //設定樹的高度
    val maxBins = 32  //設定分裂資料集

    //建立模型
    val model = DecisionTree.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo,
      impurity, maxDepth, maxBins)

    // Evaluate model on test instances and compute test error
    val labelAndPreds = testData.map { point =>
      val prediction = model.predict(point.features)
      (point.label, prediction)
    }

    val testErr = labelAndPreds.filter(r => r._1 != r._2).count().toDouble / testData.count()
    println("Test Error = " + testErr)
    println("Learned classification tree model:\n" + model.toDebugString)

    // Save and load model
    //    model.save(sc, "target/tmp/myDecisionTreeClassificationModel")
    //    val sameModel = DecisionTreeModel.load(sc, "target/tmp/myDecisionTreeClassificationModel")
  }
}

輸入資料格式：

label index1:value1 index2:value2 ...

執行結果：

Test Error = 1.04026647139573E-4

Learned classification tree model:
DecisionTreeModel classifier of depth 3 with 7 nodes
If (feature 0 <= 2.0)
   Predict: 1.0
Else (feature 0 > 2.0)
   If (feature 0 <= 3.0)
    If (feature 1 <= 2.0)
     Predict: 4.0
    Else (feature 1 > 2.0)
     Predict: 3.0
   Else (feature 0 > 3.0)

Predict: 2.0

..............

Spark MLlib之決策樹（DecisioinTree）

程式碼： /** * Created by hadoop on 16-7-3. */ import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.mllib.tree.Decisi

機器學習之決策樹（二）

天氣次數 format 定義表示葉子節點 ast 代碼 wid 一、復習信息熵　　為了解決特征選擇問題，找出最優特征，先要介紹一些信息論裏面的概念。　　1、熵（entropy）　　　　　　　　python3代碼實現： def calcShannonEnt(

機器學習十大演算法之決策樹（詳細）

什麼是決策樹？如何構建決策樹？ ID3 C4.5 CART 決策樹的優缺點及改進什麼是決策樹？決策樹是運用於分類的一種樹結構，其本質是一顆由多個判斷節點組成的樹，其中的每個內部節點代表對某一屬性的一次測試，每條邊代表一個測試結果，而葉節點代表某個類或類的分佈。屬於有監督學習核心思想：

Python Spark MLlib 之決策樹迴歸分析

資料準備場景：預測共享單車租借數量。特徵：季節、月份、時間（0~23）、節假日、星期、工作日、天氣、溫度、體感溫度、溼度、風速預測目標：每一小時的單車租用數量 1、下載資料集並開啟終端輸入命令 cd ~/pythonwork/Pyth

機器學習之決策樹（一）

1、演算法介紹決策樹是一種基本的分類和迴歸方法，決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。決策樹學習通常包括三個步驟：特徵選擇、決策樹的生成和決策樹的修剪。決策樹的本質是從訓練資料集中歸納出一組分類規則。本文主要是對決策樹的ID3演算法的介紹，後文會介紹C4.5和CART演算

機器學習十大經典演算法之決策樹（學習筆記整理）

一、決策樹概述決策樹是一種樹形結構，其中每個內部節點表示一個屬性上的測試，每個分支代表一個測試輸出，每個葉節點代表一種類別。決策樹是一個預測模型，代表的是物件屬性與物件值之間的一種對映關係。最初的節點稱為根節點（如圖中的"顏色"），有分支的節點稱為中間節點

決策樹（二）之CART的分析與實踐

1 分析 1.1 背景：線性迴歸的模型一般都要擬合所有的樣本點，但當資料擁有眾多特徵，並且特徵之間的關係十分的複雜，這時候往往是非線性的問題，很難構建全域性模型。方法：將資料集切分成很多份易建模的的資料，再線性迴歸（就像微分一樣的思想），一

機器學習爬大樹之決策樹（CART與剪枝）

分類與迴歸樹（classification and regression tree，CART）是應用廣泛的決策樹學習方法，同樣由特徵選擇，樹的生成以及剪枝組成，既可以用於分類也可以用於迴歸。CART假設假設決策樹是二叉樹，內部結點特徵

機器學習爬大樹之決策樹（ID3,C4.5）

自己自學機器學習的相關知識，過了一遍西瓜書後準備再刷一遍，後來在看別人打比賽的程式碼時多次用到XGBoost，lightGBM，遂痛下決心認真學習機器學習關於樹的知識，自己學習的初步流程圖為：決策樹（ID3,C4.5）---->CART-----&

機器學習之決策樹（Decision Tree）文字演算法的精確率

目錄背景效果圖整體流程這裡用詞向量，而不是TF-IDF預處理後的向量原始碼背景最近的專案中，用到了很多機器學習的演算法，每個機器學習的演算法在不同的樣本下的精準率是不同的。為了驗證每個演算法在每種不同樣本數

機器學習之決策樹（Decision Tree）及其Python程式碼實現

　　決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物

十大機器學習演算法之決策樹（用於信用風險）

演算法原理 Decision Trees (DTs) 是一種用來和 regression 的無參監督學習方法。其目的是建立一種模型從資料特徵中學習簡單的決策規則來預測一個目標變數的值。決策樹類似於流程圖的樹結構，分支節點表示對一個特徵進行測試，根據測試結果進行分類，樹節點

機器學習入門之決策樹（python實現）

本次學習利用MT_Train.csv中所給的資料對MT_Test.csv中的資料進行預測，判斷客戶是否會定期存款。根據所學知識，可採用sklearn中的決策樹等方法進行程式設計。歡迎大家一起討論學習進步。訓練集和測試集連結如下：一. 設計思路 1.讀取訓練集和測試集檔

監督式學習 -- 分類決策樹（一）

cte 求解分支基本概念 tracking 它的解決 mat 這就是決策樹（decision tree）是一種基本的分類與回歸方法。其表示的樹型結構，能夠覺得是if-else規則的集合。基本的長處是分類可讀性好，速度快。一般會有三個步驟：特征選擇、決策樹的生成

機器學習--DIY筆記與感悟--②決策樹（1）

lis ... 編寫代碼需要總結初始化對數三分 xtend 在完成了K臨近之後，今天我們開始下一個算法--->決策樹算法。一、決策樹基礎知識如果突然問你"有一個陌生人叫X,Ta今天需要帶傘嗎?", 你一定會覺得這個問題就像告訴你"兩千米外有一個超市,

決策樹（三）分類算法小結

最大的可靠 dot 記錄依賴基礎判定樹每一個循環調用引言　　本文主要是對分類型決策樹的一個總結。在分類問題中，決策樹可以被看做是if-then規則的結合，也可以認為是在特定特征空間與類空間上的條件概率分布。決策樹學習主要分為三個步驟：特征選擇、決策樹的生成與

決策樹（四）決策樹調參

spa lin rep core lua 性能 lib bin target 引言　　在這篇文章中，我們將探討決策樹模型的最重要參數，以及它們如何防止過度擬合和欠擬合，並且將盡可能少地進行特征工程。我們將使用來自kaggle的泰坦尼克號數據。導入數據 import

決策樹（二）分析與實踐

目錄 1 分析 1.1 背景： 1.2 定義 1.3 原理： CART如何選擇分裂的屬性？如何進行樹的剪枝來防止過擬合對於含有空值的資料，此時應該怎麼構建樹。 2.實踐：（《機器學習實戰》第九章程式碼解析） CART演算法的實現（運用到預剪枝）後剪枝演算

決策樹（三）剪枝

可以這樣理解，剪枝後剩下的計算損失函式比剪枝前更小。來源： https://blog.csdn.net/bird_fly_i/article/details/72824639?utm_sourc

決策樹（二）

也可以說，資訊量度量的是一個具體事件發生了所帶來的資訊，而熵則是在結果出來之前對可能產生的資訊量的期望——考慮該隨機變數的所有可能取值，即所有可能發生事件所帶來的資訊量的期望。即： 1.2 條件熵（可以理解為在給定某種條件下弄清這件事所需要的資訊量，其中給定某種條件後給

Spark MLlib之決策樹（DecisioinTree）

程式碼：

輸入資料格式：

執行結果：

相關推薦