hive 底層模組實現-distinct

阿新 • • 發佈：2019-01-22

準備資料

語句

SELECT COUNT, COUNT(DISTINCT uid) FROM logs GROUP BY COUNT;
hive> SELECT * FROM logs;
OK
a   蘋果  3
a   橙子  3
a   燒雞  1
b   燒雞  3

hive> SELECT COUNT, COUNT(DISTINCT uid) FROM logs GROUP BY COUNT;

根據count分組，計算獨立使用者數。

計算過程

hive distinct cal

預設設定了hive.map.aggr=true，所以會在mapper端先group by一次，最後再把結果merge起來，為了減少reducer處理的資料量。注意看explain的mode是不一樣的。mapper是hash，reducer是mergepartial。如果把hive.map.aggr=false，那將groupby放到reducer才做，他的mode是complete.

Operator

hive distinct op

Explain

hive> explain SELECT uid, sum(count) FROM logs group by uid;
OK
ABSTRACT SYNTAX TREE:
  (TOK_QUERY (TOK_FROM (TOK_TABREF (TOK_TABNAME logs))) (TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) (TOK_SELECT (TOK_SELEXPR (TOK_TABLE_OR_COL uid)) (TOK_SELEXPR (TOK_FUNCTION sum 
 (TOK_TABLE_OR_COL count)))) (TOK_GROUPBY (TOK_TABLE_OR_COL uid))))

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 is a root stage

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Alias -> Map Operator Tree:
        logs 
          TableScan // 掃描表
            alias: logs
            Select 
 Operator //選擇欄位
              expressions:
                    expr: uid
                    type: string
                    expr: count
                    type: int
              outputColumnNames: uid, count
              Group By Operator //這裡是因為預設設定了hive.map.aggr=true，會在mapper先做一次聚合，減少reduce需要處理的資料
                aggregations:
                      expr: sum(count) //聚集函式
                bucketGroup: false
                keys: //鍵
                      expr: uid
                      type: string
                mode: hash //hash方式，processHashAggr()
                outputColumnNames: _col0, _col1
                Reduce Output Operator //輸出key，value給reducer
                  key expressions:
                        expr: _col0
                        type: string
                  sort order: +
                  Map-reduce partition columns:
                        expr: _col0
                        type: string
                  tag: -1
                  value expressions:
                        expr: _col1
                        type: bigint
      Reduce Operator Tree:
        Group By Operator

          aggregations:
                expr: sum(VALUE._col0)
//聚合
          bucketGroup: false
          keys:
                expr: KEY._col0
                type: string
          mode: mergepartial //合併值
          outputColumnNames: _col0, _col1
          Select Operator //選擇欄位
            expressions:
                  expr: _col0
                  type: string
                  expr: _col1
                  type: bigint
            outputColumnNames: _col0, _col1
            File Output Operator //輸出到檔案
              compressed: false
              GlobalTableId: 0
              table:
                  input format: org.apache.hadoop.mapred.TextInputFormat
                  output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

  Stage: Stage-0
    Fetch Operator
      limit: -1

hive 底層模組實現-distinct

準備資料語句 SELECT COUNT, COUNT(DISTINCT uid) FROM logs GROUP BY COUNT; hive> SELECT * FROM logs; OK a 蘋果 3 a 橙子 3 a 燒雞

hive語句優化-通過groupby實現distinct

同事寫了個hive的sql語句，執行效率特別慢，跑了一個多小時程式只是map完了，reduce進行到20%。該Hive語句如下： select count(distinct ip) from(sel

Java中常見數據結構：list與map -底層如何實現

增強for 繼續 lin lec -- 什麽 num nsvalue index 1:集合 2 Collection(單列集合) 3 List(有序,可重復) 4 ArrayList 5

javaSE基礎之 LinkedList的底層簡單實現

http 簡單測試 void nis () gen png mage pre 這裏貼上LinkedList底層的簡單實現 package com.yck.mylinkedlist; public class Node { private Node prev

HashMap的底層原理實現（1）

TP CQ 鍵值對 jpeg 需要 dns cnp 第一步進行 ———————————— 眾所周知，HashMap是一個用於存儲Key-Value鍵值對的集合，每一個鍵值對也叫做Entry。這些個鍵值對（Entry）分散存儲

Python學習筆記：bisect模組實現二分搜尋

　　在Python中可以利用bisect模組來實現二分搜尋，該模組包含函式只有幾個： import bisect L = [1,3,4,5,5,5,8,10] x = 5 bisect.bisect_left(L,x) # 3 # 在L中查詢x，x存在時返回x最左側的位置，x不存在返回應該插入

NodeJS簡易部落格系統（八）功能需求描述及使用者模組實現

一、功能需求描述用一張導圖來說明：二、頁面設計頁面設計如下：三、梳理下整個系統的業務流程對這個小專案進行業務流程的梳理，流程圖大致如下：四、使用者模組實現 1、資料庫設計及程式碼（1）使用者表（users）（2）博文分類表（

Spring MVC 學習總結（十一）——IDEA+Maven+多模組實現SSM框架整合

一、SSM概要與SSH（Struts/Spring/Hibernate/）一樣，Spring+SpringMVC+MyBatis也有一個簡稱SSM，Spring實現業務物件管理，Spring MVC負責請求的轉發和檢視管理, MyBatis作為資料物件持久化引擎。這樣搭配的優點是：輕量、自由度高、Spri

使用random和string模組實現生成指定規則密碼

需求：當我使用自動化密碼更改工具去更改伺服器密碼的時候，隨機產生的密碼字串不一定符合我的密碼規則，會導致更改失敗。如規則為：至少包含3個數字，3個小寫字母，1個大寫字母，長度不小於8位。實現程式碼如下 def get_passwd(length=20): &

nginx 下lua模組實現功能轉發

在$request_body你的if語句執行時，變數可能沒有被讀入記憶體。建議的替代方法是使用lua支援或使用echo模組編譯nginx並執行echo_request_body。 I found the solution. I did following changes in ng

自定義決策樹儲存——python pickle模組實現

定義兩個函式，storeTree用於把決策樹以二進位制形式儲存到檔案中，grabTree從檔案中讀出決策樹到記憶體檔案字尾名為.pkl #!/usr/bin/env python # -*- coding: utf-8 -*- import pickle def storeTre

基於socketserver模組實現併發的套接字（tcp、udp）

tcp服務端：import socketserverclass MyHandler(socketserver.BaseRequestHandler): def handle(self): #通訊迴圈 while True: # print(self.cl

nodejs 使用nodejs-websocket模組實現點對點實時通訊

1、首先安裝好nodejs-websocket npm install nodejs-websocket --save -g 2、編寫服務端 var ws = require("nodejs-websocket") var AllUserData = new Array(

python3的soker模組實現功能

模擬和linux互動，只可以使用檢視命令服務端主要是建立一個服務端，在建立服務端的時候，主要步驟如下：建立socket物件socket——》繫結IP地址和埠bind——》監聽listen——》得到請求accept——》接收請求recv——》傳送資訊send import socket i

maven多模組實現

1.專案拆分為微服務訂單服務被單獨拆出負責訂單的下單取消退款等等訂單服務 provider 商品服務是訂單服務的comsumer 2.專案是maven多模組形式結構以訂單的provider舉

HashMap底層及實現原理

HashMap---->儲存資料----->這些資料一定在計算機的底層----->儲存的方式（資料結構） HashMap的儲存方式是：陣列+連結串列預設長度16。他的預設長度寫法：1<<4，因為2進位制語言是計算機底層語言

Java程式設計師必知的併發程式設計藝術——併發機制的底層原理實現

Java程式語言允許執行緒訪問共享變數，為了確保共享變數能被準確和一致的更新，執行緒應該確保通過排他鎖單獨獲得這個變數。 volatile藉助Java記憶體模型保證所有執行緒能夠看到最新的值。(記憶體可見性) 實現原理: 將帶有volatile變數操作的Java程式碼轉

Django2.0結合geoip2模組實現根據ip地址遮蔽異常請求

首先安裝geoip2： sudo pip3 install geoip2 然後下載GeoIP的資料庫： wget http://geolite.maxmind.com/download/geoip

基於nginx-rtmp-module模組實現的HTTP-FLV直播模組nginx-http-flv-module（二）

由於《基於nginx-rtmp-module模組實現的HTTP-FLV直播模組nginx-http-flv-module（一）》內容已經很長，所以後續的更新將記錄在這兒。非常感謝網友們的測試反饋和程式碼提交！專案地址

底層程式碼實現原理--每天更新

目錄（小聲bb：不定期更新） 1.print呼叫Python中底層的什麼方法 2. … 1.print呼叫Python中底層的什麼方法：關於python中的print函式，我們可以進入到這個函式

hive 底層模組實現-distinct

準備資料

計算過程

Operator

Explain

相關推薦