sparksql parquet 合並元數據

阿新 • • 發佈：2019-02-17

context tel scala final ext ext js oca load spark

java

 1 public class ParquetMergeSchema {
 2     private static SparkConf conf = new SparkConf().setAppName("parquetmergeschema").setMaster("local");
 3     private static JavaSparkContext jsc = new JavaSparkContext(conf);
 4     private static SparkSession session = new SparkSession(jsc.sc());
 5 
 6 
     public static void main(String[] args) {
 7         JavaRDD<Tuple2<String, Object>> rdd1 = jsc.parallelize(
 8                 Arrays.asList(new Tuple2<String, Object>("jack", 21), new Tuple2<String, Object>("lucy", 20)));
 9 
10         JavaRDD<Row> row1 = rdd1.map(new 
 Function<Tuple2<String, Object>, Row>() {
11 
12             private static final long serialVersionUID = 1L;
13 
14             @Override
15             public Row call(Tuple2<String, Object> v1) throws Exception {
16                 return RowFactory.create(v1._1, v1._2);
17             }
 
18         });
19 
20         JavaRDD<Tuple2<String, Object>> rdd2 = jsc.parallelize(
21                 Arrays.asList(new Tuple2<String, Object>("jack", "A"), new Tuple2<String, Object>("yeye", "B")));
22 
23         JavaRDD<Row> row2 = rdd2.map(new Function<Tuple2<String, Object>, Row>() {
24 
25             private static final long serialVersionUID = 1L;
26 
27             @Override
28             public Row call(Tuple2<String, Object> v1) throws Exception {
29                 return RowFactory.create(v1._1, v1._2);
30             }
31         });
32 
33         StructType schema1 = DataTypes
34                 .createStructType(Arrays.asList(DataTypes.createStructField("name", DataTypes.StringType, false),
35                         DataTypes.createStructField("age", DataTypes.IntegerType, false)));
36 
37         StructType schema2 = DataTypes
38                 .createStructType(Arrays.asList(DataTypes.createStructField("name", DataTypes.StringType, false),
39                         DataTypes.createStructField("grade", DataTypes.StringType, false)
40 
41                 ));
42 
43         // 將rdd轉成dataset
44         Dataset<Row> ds1 = session.createDataFrame(row1, schema1);
45 
46         Dataset<Row> ds2 = session.createDataFrame(row2, schema2);
47 
48         // 保存為parquet文件
49         ds1.write().mode(SaveMode.Append).save("./src/main/java/cn/tele/spark_sql/parquet/mergetest");
50         ds2.write().mode(SaveMode.Append).save("./src/main/java/cn/tele/spark_sql/parquet/mergetest");
51 
52         // 指定parquet文件的目錄進行讀取,設置mergeSchema為true進行合並
53         Dataset<Row> dataset = session.read().option("mergeSchema", true)
54                 .load("./src/main/java/cn/tele/spark_sql/parquet/mergetest");
55 
56         dataset.printSchema();
57         dataset.show();
58 
59         session.stop();
60         jsc.close();
61 
62     }
63 }

scala

 1 object ParquetMergeSchema {
 2   def main(args: Array[String]): Unit = {
 3     val conf = new SparkConf().setAppName("parquetmergeschema").setMaster("local")
 4     val sc = new SparkContext(conf)
 5     val sqlContext = new SQLContext(sc)
 6 
 7     val rdd1 = sc.parallelize(Array(("jack", 18), ("tele", 20)), 2).map(tuple => { Row(tuple._1, tuple._2) })
 8     val rdd2 = sc.parallelize(Array(("tele", "A"), ("wyc", "A"), ("yeye", "C")), 2).map(tuple => { Row(tuple._1, tuple._2) })
 9 
10     //schema
11     val schema1 = DataTypes.createStructType(Array(
12       StructField("name", DataTypes.StringType, false),
13       StructField("age", DataTypes.IntegerType, false)))
14 
15     val schema2 = DataTypes.createStructType(Array(
16       StructField("name", DataTypes.StringType, false),
17       StructField("grade", DataTypes.StringType, false)))
18 
19     //轉換
20     val df1 = sqlContext.createDataFrame(rdd1, schema1)
21     val df2 = sqlContext.createDataFrame(rdd2, schema2)
22 
23     //寫出
24     df1.write.mode(SaveMode.Append).save("./src/main/scala/cn/tele/spark_sql/parquet/mergetest")
25     df2.write.mode(SaveMode.Append).save("./src/main/scala/cn/tele/spark_sql/parquet/mergetest")
26 
27     //讀取進行合並
28     val df = sqlContext.read.option("mergeSchema", true).parquet("./src/main/scala/cn/tele/spark_sql/parquet/mergetest")
29     df.printSchema()
30     df.show()
31   }
32 }

sparksql parquet 合並元數據

context tel scala final ext ext js oca load spark java 1 public class ParquetMergeSchema { 2 private static SparkConf conf = new S

sparksql json 合並json數據

array code err save arrays bject idf cor als java 1 public class Demo { 2 private static SparkConf conf = new SparkConf().setAppNa

mahout demo——本質上是基於Hadoop的分步式算法實現，比如多節點的數據合並，數據排序，網路通信的效率，節點宕機重算，數據分步式存儲

fin urn [] return uid content 3.0 stock blank 摘自：http://blog.fens.me/mahout-recommendation-api/ 測試程序：RecommenderTest.java 測試數據集：item.csv

PHP合並某個字段相同的數組，並重組數據算法

算法字數 class tinc 字符串 urn keyword pub _array 對數組$array重組： $array = array( array(‘id‘=>1,‘name‘=&

元數據管理器中存在錯誤。實例化來自文件“\?C:Program FilesMicrosoft SQL ServerMSAS11.MSSQLSERVEROLAPDataTfs_Analysis.0.dbvDimTestCaseOverlay.874.dim.xml”的元數據對象時出錯。

參數配置錯誤 manage 但是加密 olap 右上角 alt 剛才一、發現問題啟動SQLSERVER的數據分析服務失敗查看系統日誌錯誤如下：雙擊錯誤後顯示詳細錯誤：元數據管理器中存在錯誤。實例化來自文件“\\?\C:\Pro

struts2在action中獲取request、session、application,並傳遞數據

ride b2c 傳遞 sets content context 分享 https fcm 假設僅僅是通過request、session、application傳遞數據，則不須要獲取對應的對象也能夠傳遞數據，代碼例如以下： ScopeAction.java: packa

關於vs 打開網站時報錯配置iis express失敗無法訪問IIS元數據庫...

ros shell 網上由於 pro mage version images logs 關於vs 打開網站時報錯配置iis express失敗無法訪問IIS元數據庫... 我安裝了vs2015，一開始創建項目，網站都沒問題，有一次突然打開項目時報錯，瞬間懵逼，我啥都沒

反射元數據

通過復雜 ise 編譯沒有 media 屬性表單表 intel C#裏的智能感知分成兩種，對於當前工程內容的智能提示，這個和C++一樣，是通過代碼分析出來的，比較復雜。因為這個時候程序還沒有編譯，沒有assembly可以獲得。對於引用dll裏內容的智能提示，是通過反射

008-Hadoop Hive sql語法詳解3-DML 操作:元數據存儲

pan 查詢寫入所有 not insert語句 int 寫入文件文件系統一、概述 hive不支持用insert語句一條一條的進行插入操作，也不支持update操作。數據是以load的方式加載到建立好的表中。數據一旦導入就不可以修改。 DML包括：INSERT插入

基於MySQL元數據的Hive的安裝和簡單測試

信息 rop msu time trying 功能條件 ans ack 引言：　Hive是一種強大的數據倉庫查詢語言，類似SQL，本文將介紹怎樣搭建Hive的開發測試環境。 1. 什麽是Hive? hive是基於Hadoop的一個數據倉庫工

springCloud（5）：Eureka的元數據與Eureka Server的rest端點

springcloud eureka的元數據 eureka server的rest端點一、Eureka的元數據1.1、簡介Eureka的元數據有兩種：標準元數據和自定義元數據。標準元數據指的是主機名、IP地址、端口號、狀態頁和健康檢查等信息，這些信息都會被發布在服務註冊表中，用於服務之間的調用。

最齊全的站點元數據meta標簽的含義和使用方法

科學計算器 rar days fresh dsm dev 預覽官方文檔 web 最齊全的站點元數據meta標簽的含義和使用方法隨著HTML5的流行和Web技術的不斷演變，Meta標簽隊伍也越來越壯大，從Windows XP的IE6到現在Windows 7、Wind

HttpURL連接遠程serverGet和Post方式請求並返回數據

spa tostring exc fcm target public writer 連接 article 查看原文：http://www.ibloger.net/article/1813.html package cn.gis; import java.

Hadoop NameNode元數據相關文件目錄解析

沒有 hadoop href dfs com 訪問控制相關 itl 大量在《Hadoop NameNode元數據相關文件目錄解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夾的幾個文件： 1 current

視頻轉碼成mp4格式，添加關鍵幀，添加元數據，把元數據放在第一幀

回車 perf res player 執行 href 如果 www 路徑作者測試是在windows下使用，所以下載的頁面地址是： http://ffmpeg.zeranoe.com/builds/點擊頁面上的Download FFmpeg git-738ebb4 64-b

php實現點擊文字提交表單並傳遞數據至下一個頁面

asc div echo data -- 提交表單 blog 類型使用 <?php $id="4";//等會要把這個數據傳到第二個頁面 ?> <?php echo "<li>";

python_為被裝飾的函數保留元數據

對象 size 計算函數名 pre 通過 doc 接收 num 案例：在函數對象中保存著一些函數的元數據，如： f.__name__ 函數名 f.__doc__

Chapter 2 User Authentication, Authorization, and Security（9）：防止登錄名和用戶查看元數據

eight ssms ini auto 情況 con title cas mar 原文出處：http://blog.csdn.net/dba_huangzj/article/details/39003679。專題文件夾：http://blog.csdn.net/dba_

二進制數據將圖片保存到數據庫，並讀取數據庫二進制數據顯示圖片

returns tco 新建讀取指定路徑 stat 指定字節數圖片轉換一. 瀏覽圖片 OpenFileDialog ofd = new OpenFileDialog(); ofd.InitialDirectory = @"E:\";

Informatica元數據庫解析

coo counter sset 更改 mba 主題 eve 計時 5.1 Informatica全部的元數據信息均以數據庫表的方式存到了元數據庫中。當然Infa本身工具提供了非常多的人性化的功能。使我們在開發時能夠非常方便的進行操作。但人們的需求總是萬變的。須要方

sparksql parquet 合並元數據

相關推薦