Spark機器學習--treeAggregrate

阿新 • • 發佈：2018-12-19

最近專案不是很忙，把一些東西整理出來，當作筆記，主要是為了養成一個好的習慣。這個主要介紹MLlib原始碼主要出現的treeAggregrate

package com.lm.spark.ml

import org.apache.spark.{SparkConf, SparkContext}

object Treeaggreate {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("test").setMaster("local[*]")
    val sc = new SparkContext(conf)
    sc.setLogLevel("WARN")
    val  rdd = sc.parallelize(1 to 12).repartition(6)

//    rdd.mapPartitionsWithIndex((index:Int,it:Iterator[Int])=>{
//      Array((s" $index : ${it.toList.mkString(",")}")).toIterator
//    }).foreach(println)

    rdd.mapPartitionsWithIndex((index:Int,it:Iterator[Int])=>{
      Array((s" $index : ${it.toList.mkString(",")}")).toIterator
    }).foreach(println)

    val res1 = rdd.aggregate(0)(seq,opt)

    println("----------")

    val res2 = rdd.treeAggregate(0)(seq,opt)

    sc.stop()
  }

  def seq(s1:Int,s2:Int):Int = {
    println("seq  "+s1+":"+s2)
    s1+s2
  }


  def opt(s1:Int,s2:Int):Int = {
    println("opt  "+s1+":"+s2)
    s1+s2
  }

}

原始碼結構：在這裡插入圖片描述

Spark機器學習--treeAggregrate

最近專案不是很忙，把一些東西整理出來，當作筆記，主要是為了養成一個好的習慣。這個主要介紹MLlib原始碼主要出現的treeAggregrate package com.lm.spark.ml imp

Spark機器學習

tin ordering 自身優點根據最好 man ray ron 這篇文章參考《Spark快速大數據分析》，歸納spark技術核心的rdd及MLlib以及其中幾個重要庫的使用。初始化操作 spark shell: bin/pyspark 每個spark應用都由一

Spark機器學習(5)：SVM算法

線性 logs pro 二維 log libs jar 解析 cti 1. SVM基本知識 SVM(Support Vector Machine)是一個類分類器，能夠將不同類的樣本在樣本空間中進行分隔，分隔使用的面叫做分隔超平面。比如對於二維樣本，分布在二維平面上，此

Spark機器學習(6)：決策樹算法

projects 信息 txt .cn import n) .com util seq 1. 決策樹基本知識決策樹就是通過一系列規則對數據進行分類的一種算法，可以分為分類樹和回歸樹兩類，分類樹處理離散變量的，回歸樹是處理連續變量。樣本一般都有很多個特征，有的特征對分

Spark機器學習(8)：LDA主題模型算法

算法 ets 思想 dir 骰子 cati em算法第一個不同 1. LDA基礎知識 LDA（Latent Dirichlet Allocation）是一種主題模型。LDA一個三層貝葉斯概率模型，包含詞、主題和文檔三層結構。 LDA是一個生成模型，可以用來生成一篇文

Spark機器學習(10)：ALS交替最小二乘算法

mllib 測試 con 相互 idt color ted 個人使用 1. Alternating Least Square ALS(Alternating Least Square)，交替最小二乘法。在機器學習中，特指使用最小二乘法的一種協同推薦算法。如下圖所示，u表

Spark機器學習(11)：協同過濾算法

設置 tel println print emp master ani alt tro 協同過濾（Collaborative Filtering，CF）算法是一種常用的推薦算法，它的思想就是找出相似的用戶或產品，向用戶推薦相似的物品，或者把物品推薦給相似的用戶。怎樣評價用戶

Spark 機器學習------邏輯回歸

tco feature iter oop cit ini ava bject nature package Spark_MLlib import javassist.bytecode.SignatureAttribute.ArrayType import org.apa

Spark機器學習中ml和mllib中矩陣、向量

int reg index mac matrix 對比判斷 bsp ive 1：Spark ML與Spark MLLIB區別？ Spark MLlib是面向RDD數據抽象的編程工具類庫，現在已經逐漸不再被Spark團隊支持，逐漸轉向Spark ML庫，Spark ML是面

【Spark機器學習速成寶典】推薦引擎——協同過濾

屬性寶典系統 ont 宋體 logs images 機器 back 目錄　　推薦模型的分類　　條目2 　　條目3 　　條目4 　　條目5 　　條目6 　　條目7 　　條目8 　　條目9 推薦模型的分類　　最為流行的兩種方法是基於內容的過濾、協

Spark機器學習（上）

控制常用 nbsp 建立判斷測試數據話題 with 分享圖片 1、機器學習概念 1.1 機器學習的定義在維基百科上對機器學習提出以下幾種定義：l“機器學習是一門人工智能的科學，該領域的主要研究對象是人工智能，特別是如何在經驗學習中改善具體算法的性能”。l“機

掌握Spark機器學習庫-01

c++ scala 強化學習聚類分享圖片 ron info 初識分享第1章初識機器學習在本章中將帶領大家概要了解什麽是機器學習、機器學習在當前有哪些典型應用、機器學習的核心思想、常用的框架有哪些，該如何進行選型等相關問題。 1-1 導學 1-2 機器學習概述

掌握Spark機器學習庫-02-mllib數據格式

style inf 向量 ima img 技術 spark 特點特征 MLlib 1.MLlib介紹 1）MLlib特點 2）哪些算法 3）閱讀官方文檔 MLlib提供了哪些：算法特征工程管道持久化 2.MLlib數據格式 1）本地向量 2）標簽數據 3）

掌握Spark機器學習庫-07.6-線性回歸實現房價預測

linear 線性 ack transform regress build count random () 數據集 house.csv 數據概覽代碼 package org.apache.spark.examples.examplesforml import org

掌握Spark機器學習庫大資料開發技能更進一步

掌握Spark機器學習庫大資料開發技能更進一步第1章初識機器學習在本章中將帶領大家概要了解什麼是機器學習、機器學習在當前有哪些典型應用、機器學習的核心思想、常用的框架有哪些，該如何進行選型等相關問題。 1-1 導學 1-2 機器學習概述 1-

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

[大資料專案]-0010-深入淺出Spark機器學習實戰（使用者行為分析）

2018最新最全大資料技術、專案視訊。整套視訊，非那種淘寶雜七雜八網上能免費找到拼湊的亂八七糟的幾年前的不成體系浪費咱們寶貴時間的垃圾，詳細內容如下，視訊高清不加密，需要的聯絡QQ：3164282908（加Q註明51CTO）。 [大資料專案]-0006-深入淺出S

掌握Spark機器學習庫-06-基礎統計部分

說明本章主要講解基礎統計部分，包括基本統計、假設檢驗、相關係數等資料集資料集有兩個檔案，分別是： beijing.txt 北京歷年降水量，不帶年份 beijing2.txt 北京歷年降水量，帶年份原始碼原始碼比較少，故在此給出：基礎統計 val t

Spark機器學習(java)：ALS交替最小二乘演算法

楔子 Spark機器學習，推薦電影，採用ALS交替最小二乘演算法 Spark中ml和mllib的區別 Spark機器學習(10)：ALS交替最小二乘演算法 demo import java.io.Serializable; import org.apach

spark機器學習原始碼 Machine Learning With Spark source code

@rover這個是C++模板 --胡滿超 stack<Postion> path__;這個裡面 ”<> “符號是什麼意思？我在C++語言裡面沒見過呢？初學者，大神勿噴。

Spark機器學習--treeAggregrate

相關推薦