如何在Spark中使用動態資料轉置

阿新 • • 發佈：2018-12-18

Dynamic Transpose是Spark中的一個關鍵轉換，因為它需要大量的迭代。本文將為您提供有關如何使用記憶體中運算子處理此複雜方案的清晰概念。

首先，讓我們看看我們擁有的源資料：

idoc_number，訂單ID，idoc_qualifier_org，idoc_org

7738,2364,6,0

7738,2364,7,0

7738,2364,8，mystr1

7738,2364,12，mystr2

7739,2365,12，mystr3

7739,2365,7，mystr4

我們還有idoc_qualifier_org 源資料記錄中列的查詢表

。由於查詢表的大小會更小，我們可以預期它會在快取中和驅動程式記憶體中。

預選賽，降序

6，司

7，分銷渠道

8，銷售組織

12，訂單型別

Dynamic Transpose操作的預期輸出是：

idoc_number，order_id，Division，Distribution Channel，Sales org，Order Type

7738,2364,0,0，mystr1，mystr2

7739,2365，空，mystr3，空，mystr4

以下程式碼實際上將根據資料中的當前列轉置資料。此程式碼是使用Spark中的Transpose Data的另一種方法。

此程式碼嚴格使用Spark的複雜資料型別，並且還負責迭代的效能。

物件 DynamicTranspose {

 def  dataValidator（map_val：Seq [ Map [ String，String ]]，rule：String）：String  = {

  嘗試 {

   val  rule_array  =  規則。拆分（“＃！”）。toList

   val  src_map  =  map_val。toList。壓扁。toMap

   var  output_str  =  “”

   rule_array。foreach（f  =>

    output_str  =  output_str  +  “！”  +  src_map。getOrElse（f，“＃”）

）

   return  output_str。掉落（1）

  } catch {

   案例 t：

    Throwable  =>  t。printStackTrace（）。toString（）

    返回 “0”。toString（）

 def  main（args：Array [ String ]）：Unit  = {

  val  spark  =  SparkSession。builder（）。主人（“本地[*]”）。config（“spark.sql.warehouse.dir”，“<src dir>”）。getOrCreate（）

  val  data_df  =  spark。讀。選項（“標題”，“真”）。csv（“<data path src>”）

  val  lkp_df  =  spark。讀。選項（“標題”，“真”）。csv（“查詢路徑源>”）

  進口 火花。暗示。_

  進口 組織。阿帕奇。火花。sql。功能。廣播

  val  lkp_df_brdcast  =  broadcast（lkp_df）

  val  result_df  =  data_df。加入（廣播（lkp_df_brdcast），$  “idoc_qualifier_org”  ===  $  “限定符”，“內部”）

  val  df1  =  result_df。groupBy（col（“idoc_number”），col（“orderid”））。agg（collect_list（map（$  “desc”，$  “idoc_org”））as  “map”）

  進口 組織。阿帕奇。火花。sql。功能。UDF

  進口 組織。阿帕奇。火花。sql。功能。{

   點燃，

   最大，

   ROW_NUMBER

  進口 火花。暗示。_

  進口 組織。阿帕奇。火花。sql。行

  val  map_val  =  lkp_df。rdd。地圖（行 =>  行。的getString（1））。收集（）。mkString（“＃！”）

  火花。sparkContext。廣播（map_val）

  VAL  recdValidator  =  UDF（dataValidator  _）

  var  latest_df  =  df1。withColumn（“explode_out”，split（recdValidator（df1（“map”），lit（map_val）），“！”））。掉落（“地圖”）

  val  columns  =  map_val。拆分（“＃！”）。toList

  latest_df  =  列。zipWithIndex。foldLeft（latest_df）{

   （memodDF，專欄）=> {

    memodDF。withColumn（柱。_1，山口（“explode_out” ）（柱。_2））

  。drop（“explode_out”）

  latest_df。show（）

希望這可以幫助！

如何在Spark中使用動態資料轉置

Dynamic Transpose是Spark中的一個關鍵轉換，因為它需要大量的迭代。本文將為您提供有關如何使用記憶體中運算子處理此複雜方案的清晰概念。首先，讓我們看看我們擁有的源資料： idoc_number，訂單ID，idoc_qualifier_org，idoc_org 7738

簡化實現動態行列轉置的SQL

文件名一個 ont 計算 post all .exe nts 難了動態行列轉換的計算在實際業務中非經常見，網上各類技術論壇上都有討論，比方以下這些問題： http://www.iteye.com/problems/87788 http://b

Excel實現資料轉置，很方便操作

有時候在檢視資料時，資料是橫向放置的，為了方便檢視變化趨勢，但是在看變化趨勢時，需要進行轉置，MATLAB或者其它軟體能夠採用幾行程式碼進行轉置，這裡不想編程式碼，就試試看Excel中是否有這種操作，結果真的有，很方便操作。先將資料拷貝到Excel中，如圖示全選

spark中動態廣播變數的使用

今天來說一下spark,動態廣播變數的用法,如果對廣播變數用法不清楚的可以檢視這個部落格,在實際專案中,有時候我們的廣播變數是動態的,比如需要一分鐘更新一次,這個也是可以實現的,我們知道廣播變數是在driver端初始化,在excetors端獲取這個變數,但是不能修改,所以,我們可以在driver

如何呼叫Spark中的資料標準化庫

在大資料的學習過程中，總有很多小夥伴遇到不知如何呼叫Spark中的資料標準庫，本文的核心這不是在於介紹「資料標準化」，也不是在於實現「Spark呼叫」，畢竟這些概念大家應該耳濡目染了，至於呼叫方法一搜一大堆。今天這個問題也是科多大資料的一名學員提出來的，估計有很多人也遇到類似的問題，一併分享在此，希

使用正則表示式和json.loads,將JSON檔案中的資料轉化為pandas.DataFrame

使用正則表示式和json.loads,將JSON檔案中的資料轉化為pandas.DataFrame 說在前面在使用Scrapy框架（爬蟲框架）爬取網頁資訊時，會定義一個ITEMS，然後通過PIPLINE將資料寫入到JSON檔案中，如果是按行寫入，則最後得到的資料就不是一個標準J

程式設計C 實驗五題目四二維動態陣列轉置(0294)

輸入兩個數字分別控制行向量個數和列向量個數。動態生成二維矩陣，對矩陣賦值後將其轉置輸出。 Description 輸入的第一行為了兩個整數m、n，接下來有一個由m*n個數據組成的整數矩陣。 Input 按轉置後的

Spark中的資料本地性

分散式資料並行環境下，保持資料的本地性是非常重要的內容，事關分散式系統性能高下。概念： block ： HDFS的物理空間概念，固定大小，最小是64M，可以是128,256 。。也就是說單個檔案大於block的大小，肯定會被切分，被切分的數目大概是：比如檔案是250

TensorFlow中張量轉置操作tf.cast/tf.dtypes.cast用法詳解

一、環境 TensorFlow API r1.12 CUDA 9.2 V9.2.148 Python 3.6.3 二、官方說明 tf.cast 或 tf.dtypes.cast 將輸入張量轉換資料型別 tf.dtypes.cast( x, dtype,

TensorFlow中張量轉置操作tf.transpose用法詳解

一、環境 TensorFlow API r1.12 CUDA 9.2 V9.2.148 Python 3.6.3 二、官方說明對張量按照指定的排列維度進行轉置 tf.transpose( a, perm=None, name='transpose',

TensorFlow中張量轉置操作tf.expand_dims用法詳解

一、環境 TensorFlow API r1.12 CUDA 9.2 V9.2.148 cudnn64_7.dll Python 3.6.3 Windows 10 二、官方說明給輸入張量的形狀增加1個維度 https://www.tensorflow.org/api

TensorFlow中張量轉置操作tf.expand_dims用法

一、環境 TensorFlow API r1.12 CUDA 9.2 V9.2.148 cudnn64_7.dll Python 3.6.3 Windows 10 二、官方說明給輸入張量的形狀增加1個維度 https://www.tensorflow.org/api

TensorFlow中張量轉置操作tf.transpose用法

一、環境 TensorFlow API r1.12 CUDA 9.2 V9.2.148 cudnn64_7.dll Python 3.6.3 Windows 10 二、官方說明將“value”幅值給“ref”，該方法使得需要重置新值的鏈式操作非常簡便 tf.assi

Flume將 kafka 中的資料轉存到 HDFS 中

flume1.8 kafka Channel + HDFS sink(without sources) 將 kafka 中的資料轉存到 HDFS 中, 用作離線計算, flume 已經幫我們實現了, 新增配置檔案, 直接啟動 flume-ng 即可. The Kafka channel can be

java 矩陣相乘矩陣相加/相減陣列相乘陣列相減資料轉置等函式

//矩陣相乘 public double[][] multiplyMatrix(double[][] a,double[][] b){ if(a[0].length != b.length) { return nul

在struts中，通過Ajax,利用jQuery，將action中的資料轉到前臺頁面

第一步、配置Struts（注意，返回的資料型別為json資料,） <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundati

資料基礎---spark中的資料型別

mllib中的資料型別本文是對官方文件的翻譯整理 1、資料型別 Local vector(本地向量) Labeled point(帶標籤資料點) Local matrix(本地矩陣) Distrubuted matrix(分散式矩陣)：RowM

如何解決spark中的資料傾斜問題

發現數據傾斜的時候，不要急於提高executor的資源，修改引數或是修改程式，首先要檢查資料本身，是否存在異常資料。 1、資料問題造成的資料傾斜找出異常的key 如果任務長時間卡在最後最後1個(幾個)任務，首先要對key進行抽樣分析，判斷是哪些

.net 中 Json資料轉實體類，實體類轉Json

1.獲取一個頁面的json值，轉換為實體類 public static void GetPurchaseMatPriceLogList() { HttpWebRequest request = (HttpWebRequest)Http

ASP.NET讀取Excel中的資料轉存到資料庫（一）

【問題描述】近日需要做一些資料倉庫的內容，發現數據庫搭好了以後，所有的資料檔案都是Excel儲存的。然而資料又是及其繁雜，所以在建立好了事實表和維度表以後，準備自己寫一個程式碼將Excel中多維的資料匯入到資料庫中。Excel表的部分資料如下圖所示所以需要對資料進行處

如何在Spark中使用動態資料轉置

相關推薦