spark-sql 不相容的hive語法列表
阿新 • • 發佈:2019-01-04
1.hive的主要特性:
spark不支援hive的桶(bucket)
2.深奧的hive特性
(1)不支援union資料型別(注意:是資料型別,不是sql語法中的union)
(2)不支援unique join
(3)不支援列統計資訊收集
3.Hive Input/Output Formats
不支援hadoop檔案歸檔(hadoop archive)
4.Hive的優化特性
(1)不支援hive的索引
(2)對於join和group by操作,不能自動的決定reduce的數量。可以通過設定SET spark.sql.shuffle.partitions=[num_tasks]來設定shuffle的並行度(對於spark-sql來說,預設是shuffle並行度是200,對於其他spark程式來說,預設是佔有的executor的cpu的數量)
(3)查詢元資料資訊必須啟動executor,而不像hive那樣不需要啟動計算資源
(4)不支援hive的資料傾斜(Skew data flag)標誌
(5)不支援hive的STREAMTABLE join的標誌
(6)對於查詢結果不支援小檔案合併
5.經過測試發現,spark不支援 insert overwrite/into directory 語法。
spark不支援hive的桶(bucket)
2.深奧的hive特性
(1)不支援union資料型別(注意:是資料型別,不是sql語法中的union)
(2)不支援unique join
(3)不支援列統計資訊收集
3.Hive Input/Output Formats
不支援hadoop檔案歸檔(hadoop archive)
4.Hive的優化特性
(1)不支援hive的索引
(2)對於join和group by操作,不能自動的決定reduce的數量。可以通過設定SET spark.sql.shuffle.partitions=[num_tasks]來設定shuffle的並行度(對於spark-sql來說,預設是shuffle並行度是200,對於其他spark程式來說,預設是佔有的executor的cpu的數量)
(3)查詢元資料資訊必須啟動executor,而不像hive那樣不需要啟動計算資源
(4)不支援hive的資料傾斜(Skew data flag)標誌
(5)不支援hive的STREAMTABLE join的標誌
(6)對於查詢結果不支援小檔案合併
5.經過測試發現,spark不支援 insert overwrite/into directory 語法。