hive collect_list和collect_set區別

阿新 • • 發佈：2018-11-19

Hive中collect相關的函式有collect_list和collect_set。

它們都是將分組中的某列轉為一個數組返回，不同的是collect_list不去重而collect_set去重。

做簡單的實驗加深理解，建立一張實驗用表，存放使用者每天點播視訊的記錄：

create table t_visit_video (

username string,

video_name string

) partitioned

by (day string)

row format delimited fields terminated by ',';

在本地檔案系統建立測試資料檔案：

張三,大唐雙龍傳

李四,天下無賊

張三,神探狄仁傑

李四,霸王別姬

王五,機器人總動員

王五,放牛班的春天

王五,盜夢空間

將資料載入到Hive表：

1	`load` `data` `local` `inpath` `'/root/hive/visit.data'` `into` `table` `t_visit_video partition (day='20180516');`

按使用者分組，取出每個使用者每天看過的所有視訊的名字：

1	`select` `username, collect_list(video_name)` `from` `t_visit_video` `group` `by` `username ;`

但是上面的查詢結果有點問題，因為霸王別姬實在太好看了，所以李四這傢伙看了兩遍，這直接就導致得到的觀看過視訊列表有重複的，所以應該增加去重，使用collect_set，其與collect_list的區別就是會去重：

1	`select` `username, collect_set(video_name)` `from` `t_visit_video` `group` `by` `username;`

李四的觀看記錄中霸王別姬只出現了一次，實現了去重效果。

突破group by限制

還可以利用collect來突破group by的限制，Hive中在group by查詢的時候要求出現在select後面的列都必須是出現在group by後面的，即select列必須是作為分組依據的列，但是有的時候我們想根據A進行分組然後隨便取出每個分組中的一個B，代入到這個實驗中就是按照使用者進行分組，然後隨便拿出一個他看過的視訊名稱即可：

1	`select` `username, collect_list(video_name)[0]` `from` `t_visit_video` `group` `by` `username;`

video_name不是分組列，依然能夠取出這列中的資料。

hive collect_list和collect_set區別

突破group by限制

hive collect_list和collect_set區別

淺談Hive和HBase區別

Hive：和關係型資料庫的區別

HIVE和HBASE區別

hive 三種方式區別和搭建

關係型資料庫和非關係型資料庫，以及hive資料倉庫的區別

Hive：Hive on Spark和SparkSQL區別

GET和POST區別總結

JS中const、var和let區別

equals 和== 的區別

mybatis中的#和$的區別

hibernate中hql語句中list和iterate區別

java中ArrayList和LinkedList區別

mysql中replicate_wild_do_table和replicate_do_db區別

2000行之宏中#和##的區別

HTML提交方式post和get區別（實驗）

stringbuffer 和 stringbuilder區別

水晶頭鍍金30U和50區別

MyBatis Mapper.xml文件中 $和#的區別

require(),include(),require_once()和include_once()區別

hive collect_list和collect_set區別

突破group by限制

相關推薦