Spark DataFrame列的合並與拆分

阿新 • • 發佈：2018-10-19

返回創建 main 3.0 substr tom 獲取 clas font

版本說明：Spark-2.3.0

使用Spark SQL在對數據進行處理的過程中，可能會遇到對一列數據拆分為多列，或者把多列數據合並為一列。這裏記錄一下目前想到的對DataFrame列數據進行合並和拆分的幾種方法。

1 DataFrame列數據的合並
例如：我們有如下數據，想要將三列數據合並為一列，並以“,”分割

+----+---+-----------+
|name|age|      phone|
+----+---+-----------+
|Ming| 20|15552211521|
|hong| 19|13287994007|
| zhi| 21|15552211523|
+----+---+-----------+

1.1 使用map方法重寫

使用map方法重寫就是將DataFrame使用map取值之後，然後使用toSeq方法轉成Seq格式，最後使用Seq的foldLeft方法拼接數據，並返回，如下所示：

//方法1：利用map重寫
    val separator = ","
    df.map(_.toSeq.foldLeft("")(_ + separator + _).substring(1)).show()

    /**
      * +-------------------+
      * |              value|
      * +-------------------+
      * |Ming,20,15552211521|
      * |hong,19,13287994007|
      * | zhi,21,15552211523|
      * +-------------------+
       
*/

1.2 使用內置函數concat_ws

合並多列數據也可以使用SparkSQL的內置函數concat_ws()

//方法2： 使用內置函數 concat_ws
    import org.apache.spark.sql.functions._
    df.select(concat_ws(separator, $"name", $"age", $"phone").cast(StringType).as("value")).show()

    /**
      * +-------------------+
      * |              value|
      * +-------------------+
      * |Ming,20,15552211521|
      * |hong,19,13287994007|
      * | zhi,21,15552211523|
      * +-------------------+
       
*/

1.3 使用自定義UDF函數

自己編寫UDF函數，實現多列合並

 //方法3：使用自定義UDF函數

    // 編寫udf函數
    def mergeCols(row: Row): String = {
      row.toSeq.foldLeft("")(_ + separator + _).substring(1)
    }

    val mergeColsUDF = udf(mergeCols _)
    df.select(mergeColsUDF(struct($"name", $"age", $"phone")).as("value")).show()

完整代碼：

import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.StringType

/**
  * Created by shirukai on 2018/9/12
  * DataFrame 合並列
  */
object MergeColsTest {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName(this.getClass.getSimpleName)
      .master("local")
      .getOrCreate()

    //從內存創建一組DataFrame數據
    import spark.implicits._
    val df = Seq(("Ming", 20, 15552211521L), ("hong", 19, 13287994007L), ("zhi", 21, 15552211523L))
      .toDF("name", "age", "phone")
    df.show()
    /**
      * +----+---+-----------+
      * |name|age|      phone|
      * +----+---+-----------+
      * |Ming| 20|15552211521|
      * |hong| 19|13287994007|
      * | zhi| 21|15552211523|
      * +----+---+-----------+
      */
    //方法1：利用map重寫
    val separator = ","
    df.map(_.toSeq.foldLeft("")(_ + separator + _).substring(1)).show()

    /**
      * +-------------------+
      * |              value|
      * +-------------------+
      * |Ming,20,15552211521|
      * |hong,19,13287994007|
      * | zhi,21,15552211523|
      * +-------------------+
      */
    //方法2： 使用內置函數 concat_ws
    import org.apache.spark.sql.functions._
    df.select(concat_ws(separator, $"name", $"age", $"phone").cast(StringType).as("value")).show()

    /**
      * +-------------------+
      * |              value|
      * +-------------------+
      * |Ming,20,15552211521|
      * |hong,19,13287994007|
      * | zhi,21,15552211523|
      * +-------------------+
      */
    //方法3：使用自定義UDF函數

    // 編寫udf函數
    def mergeCols(row: Row): String = {
      row.toSeq.foldLeft("")(_ + separator + _).substring(1)
    }

    val mergeColsUDF = udf(mergeCols _)
    df.select(mergeColsUDF(struct($"name", $"age", $"phone")).as("value")).show()

    /**
      * /**
      * * +-------------------+
      * * |              value|
      * * +-------------------+
      * * |Ming,20,15552211521|
      * * |hong,19,13287994007|
      * * | zhi,21,15552211523|
      * * +-------------------+
      **/
      */
  }
}

2 DataFrame列數據的拆分

上面我們將DataFrame的多列數據合並為一列如下所示，有時候我們也需要將單列數據，以某種拆分規則，拆分為多列。下面提供幾種將一列拆分為多列的方法。

+-------------------+
|              value|
+-------------------+
|Ming,20,15552211521|
|hong,19,13287994007|
| zhi,21,15552211523|
+-------------------+

2.1 使用內置函數split，然後遍歷添加列

該方法，先利用內置函數split將單列的數據拆分，然後遍歷使用getItem(角標)方法獲取拆分後的數據，依次使用withColumn方法添加新列，代碼如下所示：

  //方法1： 使用內置函數split，然後遍歷添加列
    val separator = ","
    lazy val first = df.first()

    val numAttrs = first.toString().split(separator).length
    val attrs = Array.tabulate(numAttrs)(n => "col_" + n)
    //按指定分隔符拆分value列，生成splitCols列
    var newDF = df.withColumn("splitCols", split($"value", separator))
    attrs.zipWithIndex.foreach(x => {
      newDF = newDF.withColumn(x._1, $"splitCols".getItem(x._2))
    })
    newDF.show()
  /**
      * +-------------------+--------------------+-----+-----+-----------+
      * |              value|           splitCols|col_0|col_1|      col_2|
      * +-------------------+--------------------+-----+-----+-----------+
      * |Ming,20,15552211521|[Ming, 20, 155522...| Ming|   20|15552211521|
      * |hong,19,13287994007|[hong, 19, 132879...| hong|   19|13287994007|
      * | zhi,21,15552211523|[zhi, 21, 1555221...|  zhi|   21|15552211523|
      * +-------------------+--------------------+-----+-----+-----------+

2.2 使用UDF函數創建多列數據，然後合並
該方法是使用udf函數，生成多個列，然後合並到原來的數據。該方法參考了VectorDisassembler（與spark ml官網提供的VectorAssembler相反），這是一個第三方的spark ml向量拆分算法，該方法github地址：https://github.com/jamesbconner/VectorDisassembler。代碼如下所示：

//方法2：使用udf函數創建多列，然後合並
    val attributes: Array[Attribute] = {
      val numAttrs = first.toString().split(separator).length
      //生成attributes
      Array.tabulate(numAttrs)(i => NumericAttribute.defaultAttr.withName("value" + "_" + i))
    }
    //創建多列數據
    val fieldCols = attributes.zipWithIndex.map(x => {
      val assembleFunc = udf {
        str: String =>
          str.split(separator)(x._2)
      }
      assembleFunc(df("value").cast(StringType)).as(x._1.name.get, x._1.toMetadata())
    })
    //合並數據
    df.select(col("*") +: fieldCols: _*).show()

    /**
      * +-------------------+-------+-------+-----------+
      * |              value|value_0|value_1|    value_2|
      * +-------------------+-------+-------+-----------+
      * |Ming,20,15552211521|   Ming|     20|15552211521|
      * |hong,19,13287994007|   hong|     19|13287994007|
      * | zhi,21,15552211523|    zhi|     21|15552211523|
      * +-------------------+-------+-------+-----------+
      */

完整代碼：

import org.apache.spark.ml.attribute.{Attribute, NumericAttribute}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types.StringType

/**
  * Created by shirukai on 2018/9/12
  * 拆分列
  */
object SplitColTest {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName(this.getClass.getSimpleName)
      .master("local")
      .getOrCreate()

    //從內存中創建DataFrame
    import spark.implicits._
    val df = Seq("Ming,20,15552211521", "hong,19,13287994007", "zhi,21,15552211523")
      .toDF("value")
    df.show()

    /**
      * +-------------------+
      * |              value|
      * +-------------------+
      * |Ming,20,15552211521|
      * |hong,19,13287994007|
      * | zhi,21,15552211523|
      * +-------------------+
      */

    import org.apache.spark.sql.functions._
    //方法1： 使用內置函數split，然後遍歷添加列
    val separator = ","
    lazy val first = df.first()

    val numAttrs = first.toString().split(separator).length
    val attrs = Array.tabulate(numAttrs)(n => "col_" + n)
    //按指定分隔符拆分value列，生成splitCols列
    var newDF = df.withColumn("splitCols", split($"value", separator))
    attrs.zipWithIndex.foreach(x => {
      newDF = newDF.withColumn(x._1, $"splitCols".getItem(x._2))
    })
    newDF.show()

    /**
      * +-------------------+--------------------+-----+-----+-----------+
      * |              value|           splitCols|col_0|col_1|      col_2|
      * +-------------------+--------------------+-----+-----+-----------+
      * |Ming,20,15552211521|[Ming, 20, 155522...| Ming|   20|15552211521|
      * |hong,19,13287994007|[hong, 19, 132879...| hong|   19|13287994007|
      * | zhi,21,15552211523|[zhi, 21, 1555221...|  zhi|   21|15552211523|
      * +-------------------+--------------------+-----+-----+-----------+
      */

    //方法2：使用udf函數創建多列，然後合並
    val attributes: Array[Attribute] = {
      val numAttrs = first.toString().split(separator).length
      //生成attributes
      Array.tabulate(numAttrs)(i => NumericAttribute.defaultAttr.withName("value" + "_" + i))
    }
    //創建多列數據
    val fieldCols = attributes.zipWithIndex.map(x => {
      val assembleFunc = udf {
        str: String =>
          str.split(separator)(x._2)
      }
      assembleFunc(df("value").cast(StringType)).as(x._1.name.get, x._1.toMetadata())
    })
    //合並數據
    df.select(col("*") +: fieldCols: _*).show()

    /**
      * +-------------------+-------+-------+-----------+
      * |              value|value_0|value_1|    value_2|
      * +-------------------+-------+-------+-----------+
      * |Ming,20,15552211521|   Ming|     20|15552211521|
      * |hong,19,13287994007|   hong|     19|13287994007|
      * | zhi,21,15552211523|    zhi|     21|15552211523|
      * +-------------------+-------+-------+-----------+
      */
  }
}

Spark DataFrame列的合並與拆分

Spark DataFrame列的合併與拆分

版本說明：Spark-2.3.0 使用Spark SQL在對資料進行處理的過程中，可能會遇到對一列資料拆分為多列，或者把多列資料合併為一列。這裡記錄一下目前想到的對DataFrame列資料進行合併和拆分的幾種方法。 1 DataFrame列資料的合併例如：我們有如下資料，想要將三列資料合併為一列，並以“,

Spark DataFrame列的合並與拆分

返回創建 main 3.0 substr tom 獲取 clas font 版本說明：Spark-2.3.0 使用Spark SQL在對數據進行處理的過程中，可能會遇到對一列數據拆分為多列，或者把多列數據合並為一列。這裏記錄一下目前想到的對DataFrame列數據進行合並

[Oracle]行列轉換（行合並與拆分）

csdn employee .net title case color trac 數據轉換 con 使用wmsys.wm_concat 實現行合並在 Oracle 中，將某一個欄位的多行數據轉換成使用逗號風格的一行顯示。能夠使用函數 wmsys.wm_concat

pyspark dataframe列的合併與拆分

使用Spark SQL在對資料進行處理的過程中，可能會遇到對一列資料拆分為多列，或者把多列資料合併為一列。這裡記錄一下目前想到的對DataFrame列資料進行合併和拆分的幾種方法。 from pyspark.sql import SparkSession spark = SparkSession

Spark DataFrame列的合併和拆分

Spark DataFrame 列的合併與拆分版本說明：Spark-2.3.0 使用Spark SQL在對資料進行處理的過程中，可能會遇到對一列資料拆分為多列，或者把多列資料合併為一列。這裡記錄一下目前想到的對DataFrame列資料進行合併和拆分的幾種方法。 1

pandas DataFrame(5)-合並DataFrame與Series

得到 pan div bsp afr ram 向量 pre nbsp 之前已經學過DataFrame與DataFrame相加,Series與Series相加,這篇介紹下DataFrame與Series的相加: import pandas as pd s = pd.Ser

20161212xlVBA文本文件多列合並

多列 workbook msgbox time minus 清理 number iter 設置 Sub NextSeven_CodeFrame() ‘應用程序設置 Application.ScreenUpdating = False Application

Restructuring Company和Almost Union-Find 並查集的區間合並與並查集的刪除

whether who cfa elong cal proc rod question mine Restructuring Company Even the most successful company can go through a crisis period

Eclipse 中svn的合並與同步

b2c eclips tex 數據 mark img 沖突 bsp watermark Eclipse 中svn的合並與同步： 1、從主幹拉取到分支：然後一直下一步，到完成就OK了。 2、從分支代碼合並到主幹： 2.1、先將本地需要提交更新的代碼提交更

poi導出excel合並單元格(包括列合並、行合並)

== location sca and class output posit size etc 1 工程所需jar包如下：commons-codec-1.5.jarcommons-logging-1.1.jarlog4j-1.2.13.jarjunit-3.8.1.jarp

PDF365新功能上線,PDF文檔合並，拆分免費不用就虧了

pdf合並 pdf拆分還在為PDF文檔合並而煩擾嗎？還在為PDF文檔拆分而煩擾嗎？還在為PDF文檔旋轉而煩擾嗎？PDF365來幫你，PDF365是PDF文檔在線處理平臺，支持PDF文檔轉換，PDF文檔處理服務，無需安裝，遇到文檔轉換格式問題，只要打開pdf365.cn這個網站即可解決。近期PDF36

【轉】PANDAS 數據合並與重塑（concat篇）

分享 levels 不同的整理 con 簡單 post ignore num 轉自：http://blog.csdn.net/stevenkwong/article/details/52528616 1 concat concat函數是在pandas底下的方法，可以將數據

JS----對象的合並與克隆與數組的深淺克隆

net for循環 truct 自身 ext src 循環高級淺克隆在js中，數組和對象的復制如果使用=號來進行復制，那只是淺拷貝。如下圖演示：如上，arr的修改，會影響arr2的值，這顯然在絕大多數情況下，並不是我們所需要的結果。因此，數組以及對象的深拷貝

文件合並與歸檔

返回這一搜索密碼不用所有 ctrl+c 檢查系統進程內容1>文件將左邊的你內容覆蓋到右邊文件裏面，若右邊文件不存在，則會創建一個文件內容1>>文件：最加到文件的最後面左邊只要有輸出結果，必須是文件名或文件路徑 cat a

C# 如何合並、拆分Word文檔

C# .NET Word合並、拆分免費控件概述出於方便文檔管理、存儲、傳輸等目的，我們常會想要將某些文檔拆分為多個子文檔，或者將多個文檔合並為一個文檔。在本文中，將介紹對Word文檔進行拆分、合並的方法。下面的示例中將包含以下要點：合並Word文檔1.1 新建一頁合並到文檔1.2 緊

WPF 自定義OA現金盤平臺出租表格（可添加、刪除、合並、拆分）

oar each dev col pri true ext bject http xaml代碼OA現金盤平臺出租QQ2952777280【話仙源碼論壇】hxforum.com【木瓜源碼論壇】papayabbs.com <Windowxmlns="http:/

查集講解（按秩合並與路徑壓縮）

ram == return n) style str fin bsp pre 自看。。。借鑒自：https://blog.csdn.net/u011056504/article/details/51222494 1、路徑壓縮 void find(int x) {

dataframe的合並（append, merge, concat）

顯示 3.2 選擇列數行合並重復原來 result value 1，pd.concat：拼接1.1，axisdf1 = pd.DataFrame(np.ones((3,4))*0, columns = [‘a‘, ‘b‘, ‘c‘, ‘d‘])df2 = pd.Da

第五篇：文件合並與文件歸檔

方式文件的打包指定 name 輸出內容參數 tex -c 文件合並與文件歸檔 1.> 表示把>左邊命令的輸出內容覆蓋到右邊 >> 表示把>>左邊命令的輸出內容追加到右邊例：文件合並 cat a.txt b.txt>c.

C# 合並、拆分PPT幻燈片

RoCE str dll alt 幻燈片 51cto bfc remove int 概述通過合並、拆分的功能，將不同的文檔中的幻燈片進行組合形成新的的文檔，同時也可以將一個多頁的PPT文檔按頁拆分成多個不同的文檔。此功能也豐富了編程人員對PPT幻燈片的操作的選擇。下面將分

Spark DataFrame列的合並與拆分

1.1 使用map方法重寫

1.2 使用內置函數concat_ws

1.3 使用自定義UDF函數

2 DataFrame列數據的拆分

2.1 使用內置函數split，然後遍歷添加列

相關推薦