1. 程式人生 > >spark-sql 不相容的hive語法列表

spark-sql 不相容的hive語法列表

1.hive的主要特性:
    spark不支援hive的桶(bucket)
2.深奧的hive特性
   (1)不支援union資料型別(注意:是資料型別,不是sql語法中的union)
   (2)不支援unique join     
   (3)不支援列統計資訊收集
3.Hive Input/Output Formats
   不支援hadoop檔案歸檔(hadoop archive)
4.Hive的優化特性
  (1)不支援hive的索引
  (2)對於join和group by操作,不能自動的決定reduce的數量。可以通過設定SET spark.sql.shuffle.partitions=[num_tasks]來設定shuffle的並行度(對於spark-sql來說,預設是shuffle並行度是200,對於其他spark程式來說,預設是佔有的executor的cpu的數量)
  (3)查詢元資料資訊必須啟動executor,而不像hive那樣不需要啟動計算資源
  (4)不支援hive的資料傾斜(Skew data flag)標誌
  (5)不支援hive的STREAMTABLE join的標誌
  (6)對於查詢結果不支援小檔案合併 
5.經過測試發現,spark不支援 insert overwrite/into directory 語法。