同一個sql 在Hive和spark-sql 跑出結果不一樣記錄

阿新 • • 發佈：2018-12-17

表Schema

hive> desc gdm.dim_category;                                
name                    string         分類名稱                                                   
org_code                string         分類code                             

hive> select name, org_code from gdm.dim_category limit 
 2;
OK
鞋     _8_
鞋/男  _8_21_

hive> desc gdm.dim_product_brand;
brand_id                bigint                  品牌ID                
ch_name                 string                  品牌中文名

hive> select brand_id, ch_name from gdm.dim_product_brand limit 2;
OK
1       nb
2       np

待執行的SQL

select
  t1.keyword,
  t3.name,
  t4.ch_name
from
(
  select "categoryIds:_8_" as keyword
  union all
  select "categoryIds:_8_21_" as keyword
  union all
  select "brandId:1" as keyword
) t1
left join gdm.dim_category t3
on split(t1.keyword, ":")[1] = t3.org_code and split(t1.keyword, ":") 
[0] = "categoryIds"
left join gdm.dim_product_brand t4
on split(t1.keyword, ":")[1] = t4.brand_id and split(t1.keyword, ":")[0] = "brandId"

在Hive中跑出的結果 (錯誤)

categoryIds:_8_	NULL	NULL
categoryIds:_8_21_	NULL	NULL
brandId:1	NULL	nb

在Spark-sql中跑出的結果 (正確)

categoryIds:_8_	鞋	NULL
categoryIds:_8_21_	鞋/男	NULL
brandId:1	NULL	nb

原因

因為 gdm.dim_product_brand 表中 brand_id欄位是 bigint 型別所以在Hive中會把 keyword 轉成double型別用來進行 join 匹配操 –> split(t1.keyword, “:”)[1] = t4.brand_id)

因此 split(t1.keyword, “:”)[1] = t3.org_code 匹配不成功，所以結果為NULL

解決辦法

split(t1.keyword, ":")[1] = t4.brand_id  -->  split(t1.keyword, ":")[1] = cast(t4.brand_id as string)

同一個sql 在Hive和spark-sql 跑出結果不一樣記錄

表Schema hive> desc gdm.dim_category; name string 分類名稱

hive和spark-sql計算stddev的結果差異

問題描述：利用spark-sql得到了NaN的值，核對發現這些值都是關於stddev計算後得到的，但是在hive中查得為0.0。使用的SQL程式碼為 select phone , tour_ymd , stddev(total_price) as total_p

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下執行sql命令和整合調用hive

type with hql lac 命令 val driver spark集群 string 1.安裝Hive 如果想創建一個數據庫用戶，並且為數據庫賦值權限，可以參考：http://blog.csdn.net/tototuzuoquan/article/details/5

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下執行sql命令和整合呼叫hive

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

SparkSQL（二）spark-shell和spark-sql以及thriftserver&beeline訪問hive表

一、spark-shell 1.把hive的hive-site.xml複製到spark的conf下面 2.開啟spark-shell bin/spark-shell --master local[2] --jars /opt/datas/mysql-connector-

【七】Spark SQL命令和Spark shell命令操作hive中的表

1.把hive的配置檔案hive-site.xml複製到spark/conf下。 2.啟動的時候帶上MySQL的連線驅動 Spark-shell命令使用 spark-shell是通過得到sparksession然後呼叫sql方法執行hive的sql。 cd /app/

Spark SQL 筆記(5)—— Hive 到 Spark SQL（1）

1 SQLContext 1.1 Spark1.x 中Spark SQL 的入口點：SQLContext 參考連結 https://spark.apache.org/docs/1.6.1/sql-programming-guide.html#starting-point-sqlc

在Yarn上執行spark-shell和spark-sql命令列

spark-shell On Yarn 如果你已經有一個正常執行的Hadoop Yarn環境，那麼只需要下載相應版本的Spark，解壓之後做為Spark客戶端即可。需要配置Yarn的配置檔案目錄，export HADOOP_CONF_DIR=/etc/hadoop/conf &n

spark-core 和spark-sql的區別

轉自： http://www.cnblogs.com/zlslch/p/6685679.html Spark SQL構建在Spark Core之上，專門用來處理結構化資料(不僅僅是SQL)。即Spark SQL是Spark Core封裝而來的！　　Spark

Spark Core 和 Spark SQL 實現分組取Top N(基於scala)

分組取Top N在日常需求中很多見：每個班級分數前三名同學的名字以及分數各省指標數量前三的市的名字等等需求，主要思想就是在某一個分割槽（班級，省）中取出該分割槽Top N的資料測試資料格式：如上圖，欄位含義為，班級，學生姓名，分數下面我們通過一

Mac單機Hadoop2.7下安裝Spark2.2+配置SparkSQL查詢Hive表+spark-sql CLI 查詢

下面簡單記錄mac單機spark安裝測試的過程單機Mac安裝spark並做簡單yarn模式shell測試配置SparkSQL查詢Hive spark-sql CLI 查詢Hive 一、安裝Spark 1-下載安裝scala 移動至

String 轉化成java.sql.Date和java.sql.Time

rac rda simple date ati details trac eof mat String類型轉換成java.sql.Date類型不能直接進行轉換，首先要將String轉換成java.util.Date，在轉化成java.sql.Date 請點擊---》 j

Spark SQL 筆記(4)——Spark SQL 介紹

1 Spark SQL 背景介紹 1.1 Hive 介紹類似 sql 的 Hive QL 語言， sql -> mapreduce 改進： hive on tez，hive on spark, hive on mapreduce 1.2 Spark

Spring boot配置資料來源報錯之java.sql.SQLException和java.sql.SQLNonTransientConnectionException

週末想自己用Spring boot整合Mybatis寫點簡單的demo，沒想到出了點以前沒遇到過的bug，特記錄一下 java.sql.SQLException: The server time zone value 'ÖÐ¹ú±ê×¼Ê±¼ä' is unrecognized or repre

sql server和my sql 命令（語句）的區別，sql server與mysql的比較

sql與mysql的比較 1、連線字串 sql :Initial Catalog(database)=x; --資料庫名稱 Data S

Spark SQL 筆記(18)——spark SQL 總結(1)

1 Spark SQl 使用場景 Ad-hoc querying of data in files Live SQL analytics over streaming data ETL capabilities alongside familiar SQL I

Spark SQL 筆記(19)——spark SQL 總結(2) DataFrame VS SQL

1 DataFrame DataFrame = RDD + Schema DataFrame is just a type alias for Dataset of Row DataFrame ov

Ubantu下如何安裝mysql資料庫，以及如何備份sql檔案和執行sql檔案！

　　1. sudo apt-get install mysql-server 　　2. apt-get isntall mysql-client 　　3. sudo apt-get install libmysqlclient-dev 安裝好mysql之後，檢查是否安裝成功：sudo netstat

SparkSQL On Hive和spark的記憶體分配問題

Spark On Hive 1.SparkSQL整合Hive，需將hive-site.xml複製到{SAPRK_HOME/conf}目錄下，即可！！　　a.將hive-site.xml複製到{SAPRK_HOME/conf}目錄下；　　b.將hi

Spark SQL系列------2. Spark SQL Aggregate操作的實現

在Spark 1.6上，TungstenAggregateIterator實現了一個分割槽的Iterator。在實際執行的時候分2中情況： 1.要Aggregate的分割槽資料並不是特別大，在記憶體中就可以實現Aggregate了 2.要Aggregate的分割槽資料比較

同一個sql 在Hive和spark-sql 跑出結果不一樣記錄

表Schema

待執行的SQL

原因

解決辦法

相關推薦