Spark DataFrame vector 類型存儲到Hive表

阿新 • • 發佈：2018-07-18

ont afr analysis iss context 有一個 wdf com col

1. 軟件版本

軟件	版本
Spark	1.6.0
Hive	1.2.1

2. 場景描述

在使用Spark時，有時需要存儲DataFrame數據到Hive表中，一般的存儲方式如下：

 // 註冊臨時表
 myDf.registerTempTable("t1")
 // 使用SQLContext從臨時表創建Hive表
 sqlContext.sql("create table h1 as select * from t1")

在DataFrame中存儲一般的數據類型，比如Double、Float、String等到Hive表是沒有問題的，但是在DataFrame中還有一個數據類型：vector ，如果存儲這種類型到Hive表那麽會報錯，類似：

org.apache.spark.sql.AnalysisException: cannot resolve ‘cast(norF as struct<type:tinyint,size:int,indices:array<int>,values:array<double>>)‘ 
due to data type mismatch: cannot cast org.apache.spark.mllib.linalg.VectorUDT@f71b0bce to StructType(StructField(type,ByteType,true), StructField(size,IntegerType,true 
), StructField(indices,ArrayType(IntegerType,true),true), StructField(values,ArrayType(DoubleType,true),true));

這個錯誤如果搜索的話，可以找到類似這種結果： Failed to insert VectorUDT to hive table with DataFrameWriter.insertInto(tableName: String)

也即是說暫時使用Spark是不能夠直接存儲vector類型的DataFrame到Hive表的，那麽有沒有一種方法可以存儲呢？
想到這裏，那麽在Spark中是有一個工具類VectorAssembler 可以達到相反的目的，即把多個列（也需要要求這些列的類型是一致的）合並成一個vector列。但是並沒有相反的工具類，也就是我們的需求。

3. 問題的迂回解決方法

這裏提出一個解決方法如下：
假設：
1. DataFrame中數據類型是vector的列中的數據類型都是已知的，比如Double，數值類型；
2. vector列中的具體子列個數也是已知的；
有了上面兩個假設就可以通過構造RDD[Row]以及schema的方式來生成新的DataFrame，並且這個新的DataFrame的類型是基本類型，如Double。這樣就可以保存到Hive中了。

4. 示例

本例流程如下：

技術分享圖片

代碼如下：

// 1.讀取數據
val data = sqlContext.sql("select * from normalize")

讀取數據如下：

技術分享圖片

// 2.構造vector數據
import org.apache.spark.ml.feature.VectorAssembler
val cols = data.schema.fieldNames
val newFeature = "fea"
val asb = new VectorAssembler().setInputCols(cols).setOutputCol(newFeature)
val newDf = asb.transform(data)
newDf.show(1)

技術分享圖片

// 3.做歸一化
import org.apache.spark.ml.feature.Normalizer
val norFeature ="norF"
val normalizer = new Normalizer().setInputCol(newFeature).setOutputCol(norFeature).setP(1.0)
val l1NormData = normalizer.transform(newDf)
l1NormData.show(1)
// 存儲DataFrame vector類型報錯
// l1NormData.select(norFeature).registerTempTable("t1")
// sqlContext.sql("create table h2 as select * from t1")

技術分享圖片

// 4.扁平轉換vector到row
import org.apache.spark.sql.Row
val finalRdd= l1NormData.select(norFeature).rdd.map(row => Row.fromSeq(row.getAs[org.apache.spark.mllib.linalg.DenseVector](0).toArray))
val finalDf = sqlContext.createDataFrame(finalRdd,data.schema)
finalDf.show(1)

技術分享圖片

// 5. 存儲到Hive中
finalDf.registerTempTable("t1")
sqlContext.sql("create table h1 as select * from t1")

技術分享圖片

Spark DataFrame vector 類型存儲到Hive表

ont afr analysis iss context 有一個 wdf com col 1. 軟件版本軟件版本 Spark 1.6.0 Hive 1.2.1 2. 場景描述在使用Spark時，有時需要存儲DataFrame數據到Hive表中，一般的

Spark DataFrame vector 類型存儲到Hive表

1. 軟件版本

2. 場景描述

3. 問題的迂回解決方法

4. 示例

Spark DataFrame vector 類型存儲到Hive表

Redis簡單介紹以及數據類型存儲

C/C++ 面試-內存對齊即不同數據類型存儲空間

其他基本數據類型存儲空間大小

帶符號數值基本類型存儲

1.2整型數據類型存儲空間大小

SQL Server time(2)類型存儲為int後如何轉換

lucene復雜數據類型存儲

C# 圖解教程（類型存儲和變量）

Java運行時，各種類型存儲介紹

轉：WOM 編碼與一次寫入型存儲器的重復使用

C++標準庫vector類型的使用和操作總結

請說出ArrayList,Vector, LinkedList的存儲性能和特性

使用泛型存儲不同類型的數據

Java POJO類直接存儲在MongoDB中

根據關鍵字查詢存儲或表

MySQL-mysql 數據類型,操作數據表,記錄操作

InnoDB存儲引擎表的邏輯存儲結構

雜記-格式化Date默認格式,日期加一天,jstl判斷字符類型,ajax模擬from表單後臺跳轉頁面,jstl訪問數據庫並在頁面顯示

自定義類型的乘法口訣表

Spark DataFrame vector 類型存儲到Hive表

1. 軟件版本

2. 場景描述

3. 問題的迂回解決方法

4. 示例

相關推薦