用spark實現hive中的collect_set函式的功能

阿新 • • 發佈：2019-01-04

import org.apache.spark.SparkContext._
import org.apache.spark._

/**
 * Created by xiaojun on 2015/3/9.
 */
object SparkDemo2 {
  def main(args: Array[String]) {

    case class User(id: String, name: String, vtm: String, url: String)
    //val rowkey = (new RowKey).evaluate(_)
    val HADOOP_USER = "hdfs"
    // 設定訪問spark使用的使用者名稱
    System.setProperty("user.name", HADOOP_USER);
    // 設定訪問hadoop使用的使用者名稱
    System.setProperty("HADOOP_USER_NAME", HADOOP_USER);

    val conf = new SparkConf().setAppName("wordcount").setMaster("local").setExecutorEnv("HADOOP_USER_NAME", HADOOP_USER)
    val sc = new SparkContext(conf)
    val data = sc.textFile("test.txt")
    val rdd1 = data.map(line => {
      val r = line.split(",")
      User(r(0), r(1), r(2), r(3))
    })
    val rdd2 = rdd1.map(r => ((r.id, r.name), r))

    val seqOp = (a: List[String], b: User) => (b.vtm :: a).distinct
    val combOp = (a: List[String], b: List[String]) => {
      (a ::: b).distinct
    }

    println("-----------------------------------------")
    val rdd3 = rdd2.aggregateByKey(List[String]())(seqOp, combOp).mapValues(l => l.mkString(","))
    rdd3.collect.foreach(r => println(r._2))
    println("-----------------------------------------")
    sc.stop()
  }

}

test.txt檔案內容(隨便造的,沒具體含義)如下:

id1,user1,2,http://www.hupu.com
id1,user1,2,http://www.hupu.com
id1,user1,3,http://www.hupu.com
id1,user1,100,http://www.hupu.com
id2,user2,2,http://www.hupu.com
id2,user2,1,http://www.hupu.com
id2,user2,50,http://www.hupu.com
id2,user2,2,http://touzhu.hupu.com

最終得出的結果為:

100,3,2
2,50,1

和collect_set效果一致.

用spark實現hive中的collect_set函式的功能

import org.apache.spark.SparkContext._ import org.apache.spark._ /** * Created by xiaojun on 2015/3/9. */ object SparkDemo2 { def ma

kubernetes用configmap實現容器中mysql應用配置文件的管理

mat license var pla ons 這就是 esc include pre 1.configmap的作用理解 configMap起什麽作用的呢？舉個例子，啟用一個mysql容器。一般來說，mysql容器重要的有兩部分，一部分為存儲數據，一部分為配置文件my.cn

python中 mean()函式功能：求取均值

用法：mean(matrix,axis=0) 其中 matrix為一個矩陣，axis為引數以m * n矩陣舉例： axis 不設定值，對 m*n 個數求均值，返回一個實數 axis = 0：壓縮行，對各列求均值，返回 1* n 矩陣 axis =1 ：壓縮列，對各行求均

使用spark將hive中的資料匯入到mongodb

import com.huinong.truffle.push.process.domain.common.constant.Constants; import com.mongodb.spark.MongoSpark; import com.mongodb.spark.config.WriteConf

Spark Mlib(七)用spark實現LogisticRegression

logistic迴歸又稱logistic迴歸分析，是一種廣義的線性迴歸分析模型，常用於資料探勘，疾病自動診斷，經濟預測等領域.以下是spark中該演算法的實現方式，原地址為http://spark.apache.org/docs/latest/mllib-linear-methods.htm

Spark Mlib(六)用spark實現貝葉斯分類器

貝葉斯分類器是各種分類器中分類錯誤概率最小或者在預先給定代價的情況下平均風險最小的分類器。下面是spark官網（http://spark.apache.org/docs/latest/mllib-naive-bayes.html）給出的例子 package alg import org.

大資料教程（9.5）用MR實現sql中的jion邏輯

上一篇部落格講解了使用jar -jar的方式來執行提交MR程式，以及通過修改YarnRunner的原始碼來實現MR的windows開發環境提交到叢集的方式。本篇博主將分享sql中常見的join操作。 &nbs

用Nodejs實現一個簡單的爬蟲功能。（ES6標準）

Nodejs版本：v10.11.0 依賴模組：express，superagent，cheerio 程式碼： const express = require('express'); const superagent = require('superagent'); co

MySQL if 函式實現類似Oracle decode函式功能

SQL SELECT if(timestampdiff(hour, sa.add_time, now()) < 1000, if(timestampdiff(hour, sa.add_time, now()) < 300, if(timestampd

用js實現java中的map

今天閒來無事，照著別人的例子寫了一個小Demo。一眼看上去沒什麼難的，其實挺有意思的。 function Map(){ this.array = new Array(); var struct = function(key,value){

python中 mean()函式功能：求取均值

用法：mean(matrix,axis=0) 其中 matrix為一個矩陣，axis為引數以m * n矩陣舉例： axis 不設定值，對 m*n 個數求均值，返回一個實數 axis = 0：壓縮行，對各列求均值，返回 1* n 矩陣 axis =1 ：壓縮列，對各

Hive中if函式和Mysql中ifnull的轉換

1.在mysql中，ifnull函式的用法，其表示式如下： IFNULL(expr1,expr2) 如果 expr1 不是 NULL，IFNULL() 返回 expr1，否則它返回 expr2。IFNULL()返

android用SharedPreferences實現登入時記住密碼功能

import android.content.Intent;import android.content.SharedPreferences;import android.support.v7.app.AppCompatActivity;import android.os.Bundle;import andr

Spark實現HIVE統計結果匯入到HBase操作

由於HIVE更新的機制極其不適應SPARK環境，於是利用HBase來執行HIVE中某些統計結果的更新。首先要做的是實現Spark + Hive訪問，得到RDD，再將這個RDD匯入到HBase中操作。

點選複製按鈕複製指定文字內容，實現網頁中的複製功能

SQLServer 實現oracle中rownum 的功能

轉載於 http://www.cnblogs.com/shuang121/archive/2011/03/11/1981827.html Oracle資料庫換成SqlServer資料庫，在轉換的過程中出現一點問題，就是輸出表的行號的時候出現了問題，在Oracle資料庫中，

用Python 實現一個簡單的postman功能

用Python 實現一個簡單的postman功能 import os import requests import json import defaultdict as default_dict class PostMan: __instance = None

用mysql實現oracle的分析函式

最近資料中心環境切換，源資料儲存在oracle11g裡，新環境要mysql5.7，由於很多的sql語句用到了oracle的分析函式，而mysql對此暫無很好的支援，所以做了以下的轉化，作為標記，有錯誤的地方，希望大家指正。一。準備工作 1.資料表準備 oracle的sc

mysql中ifnull和hive中if函式的轉換

先說說，在mysql中，ifnull函式的用法，其表示式如下：IFNULL(expr1,expr2)如果 expr1 不是 NULL，IFNULL() 返回 expr1，否則它返回 expr2。IFNULL()返回一個數字或字串值，取決於它被使用的上下文環境。舉個應用場景，比

C++ 用棧實現字串中括號匹配問題（）

使用C++中的stack容器可以很容易的實現字串中括號的匹配判斷問題： #include<iostream> #include<string> #include<stac

用spark實現hive中的collect_set函式的功能

相關推薦