記錄一個自己寫的hiveUDAF

阿新 • • 發佈：2018-12-15

這是一個我自己參考網站寫的UDAF，期間各種bug，終於讓我跑通了，作用是輸入表字段名稱，輸出欄位的統計總行數，為空行數，以及top十條去重後的樣例資料，方法說明都有標註，以下是程式碼貼圖：

package com.zh.hive;



import net.sf.json.JSONObject;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.parse.SemanticException;
import org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;
import org.apache.hadoop.hive.serde2.typeinfo.TypeInfo;
import org.apache.hadoop.hive.serde2.typeinfo.TypeInfoUtils;
import org.eclipse.jetty.util.ajax.JSON;


import java.util.*;


public class QcUdf extends AbstractGenericUDAFResolver {

    public GenericUDAFEvaluator getEvaluator(TypeInfo[] parameter) throws SemanticException {
        ObjectInspector oi = TypeInfoUtils.getStandardJavaObjectInspectorFromTypeInfo(parameter[0]);
        PrimitiveObjectInspector inputOI = (PrimitiveObjectInspector) oi;
        return new GenericUDAFHistogramNumericEvaluator();
    }

    public static class GenericUDAFHistogramNumericEvaluator extends GenericUDAFEvaluator {
        // UDAF logic goes here!
        PrimitiveObjectInspector inputOI;
        ObjectInspector outputOI;
        PrimitiveObjectInspector integerOI;
        @Override
        public ObjectInspector init(Mode m, ObjectInspector[] parameters)
                throws HiveException {
            assert (parameters.length == 1);
            super.init(m, parameters);

            //map階段讀取sql列，輸入為String基礎資料格式
            if (m == Mode.PARTIAL1 || m == Mode.COMPLETE) {
                inputOI = (PrimitiveObjectInspector) parameters[0];
            } else {
                //其餘階段，輸入為String基礎資料格式
                integerOI = (PrimitiveObjectInspector) parameters[0];
            }
            // 指定各個階段輸出資料格式都為String型別
            outputOI = ObjectInspectorFactory.getReflectionObjectInspector(String.class,
                    ObjectInspectorFactory.ObjectInspectorOptions.JAVA);
            return outputOI;
        }
        /**
         * 儲存當前字元總數的類
         */
        static class LetterSumAgg implements AggregationBuffer {
            int sum = 0;
            int count1 = 0;
            Map<String,Integer> map =new HashMap<String,Integer>();
            void put(String str){//放進去一個欄位值
                str = str.trim();
                if(str!=null||str!=""){
                    if (map.get(str)!=null){
                        int org=map.get(str)+1;
                        map.put(str,org);
                    }else{
                        map.put(str,1);
                    }
                }else{
                    map.put("null_key",1);
                }
            }
            void put(Map<String,Integer> target_map) {//合併兩個map
                Iterator<Map.Entry<String,Integer>> target = target_map.entrySet().iterator();
                while (target.hasNext()) {
                    Map.Entry<String,Integer> next = target.next();
                    String key = next.getKey();
                    if(map.get(key)!=null){
                        map.put(key,map.get(key)+target_map.get(key));
                    } else{
                        map.put(key,target_map.get(key));
                    }
                }
            }
            void add(int num,int count){
                sum += num;
                count1 += count;
            }
            String getTop10(){
                List <String> list = new ArrayList<String>();
                String str ="";
                for(Map.Entry entry:map.entrySet()){
                    list.add(entry.getValue().toString());
                }
                Collections.sort(list);
                if(list.size()>10){
                    int count = 0;
                    for (int i=list.size()-1;i>list.size()-11;i--){
                        if (count<=10) {
                            for (Map.Entry entry : map.entrySet()) {
                                if (list.get(i).equals(entry.getValue().toString())) {
                                    count++;
                                    if (count <= 10) {
                                        str += entry.getKey().toString().replace("\n","").replace("\t","").replace("|","") + "@" + entry.getValue().toString() + "，";
                                        map.put(entry.getKey().toString(), 0);
                                    }else{ break;}
                                }
                            }
                        }
                    }
                }else{
                    for(Map.Entry entry:map.entrySet()){
                        str += entry.getKey().toString().replace("null_key","null")+"@"+entry.getValue().toString()+"，";
                    }
                }
                return str;
            }
        }
        public AggregationBuffer getNewAggregationBuffer() throws HiveException {
            LetterSumAgg result = new LetterSumAgg();
            return result;
        }

        public void reset(AggregationBuffer aggregationBuffer) throws HiveException {
            LetterSumAgg myagg = new LetterSumAgg();
        }
        private boolean warned = false;

        public void iterate(AggregationBuffer aggregationBuffer, Object[] objects) throws HiveException {//邏輯存放地
            assert (objects.length == 1);
            LetterSumAgg myagg = (LetterSumAgg) aggregationBuffer;
            if(myagg==null){
                myagg = new LetterSumAgg();
            }
            if (objects[0] != null&&objects[0].toString().toLowerCase().trim() !="null"&&objects[0].toString().trim() !="") {
                myagg.put(objects[0].toString());
                myagg.add(1,0);//統計總行數
            }else{
                myagg.put("null_key");
                myagg.add(1,1);//統計總行數
            }
        }

        public String terminatePartial(AggregationBuffer aggregationBuffer) throws HiveException {//單機合併
            LetterSumAgg agg = new LetterSumAgg();
            LetterSumAgg myagg = (LetterSumAgg)aggregationBuffer;
            if(myagg==null){
                myagg = new LetterSumAgg();
            }
            agg.sum += myagg.sum;
            agg.count1 += myagg.count1;
            agg.put(myagg.map);
            JSONObject jsonObject=null;
            if (agg.map!=null){
                 jsonObject = JSONObject.fromObject(agg.map);
            }
          //  JSONObject jsonObject = JSONObject.fromObject(agg.map);
            return agg.sum+"#@"+agg.count1+"#@"+jsonObject;
        }

        public void merge(AggregationBuffer aggregationBuffer, Object o) throws HiveException {//叢集合併
            if ( o!= null) {
                LetterSumAgg myagg1 = (LetterSumAgg) aggregationBuffer;
                String agg = (String) integerOI.getPrimitiveJavaObject(o);
               String result[] = agg.split("#@");
               if (result[2]!=null) {
                   Map maps = (Map) JSON.parse(result[2]);
                   myagg1.put(maps);
               }
                myagg1.add(Integer.parseInt(result[0]),Integer.parseInt(result[1]));
            }
        }

        public Object terminate(AggregationBuffer aggregationBuffer) throws HiveException {//複製最終結果
            LetterSumAgg myagg = (LetterSumAgg) aggregationBuffer;
            return myagg.sum+"|"+myagg.count1+"|"+myagg.getTop10();
        }

    }

}

各位朋友使用請直接copy即可。附上maven依賴

<dependencies>
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-jdbc</artifactId>
            <version>2.1.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>2.1.1</version>
        </dependency>
</dependencies>

大功告成，測試結果樣例如下：

38386|0|[3522963,  3383561,  3517824,  3505051,  3037673,  3523778,  3300084,  3483628,  3525325,  3514324]

執行程式碼如下：

use databases_name;
add jar /home/zhangheng/hive.jar;
create temporary function tj as 'com.zh.hive.QcUdf';
select tj(c1) ,tj(c2),tj(c3) from table;

記錄一個自己寫的hiveUDAF

這是一個我自己參考網站寫的UDAF，期間各種bug，終於讓我跑通了，作用是輸入表字段名稱，輸出欄位的統計總行數，為空行數，以及top十條去重後的樣例資料，方法說明都有標註，以下是程式碼貼圖： package com.zh.hive; import net.sf.json.JSONObjec

聊一個自己寫的MVC框架

xml文件 ast target 實現類讀取能說位置加載 -i 　　也有個一周沒有更新博客了，其實我沒有偷懶，因為之前一直在看Spring源碼，所以想著去寫一個類Spring的框架，也沒有給自己定什麽高的要求，簡單實現MVC、AOP、IOC等功能就行。現在這個框架基

分享一個自己寫的MVC EF 增刪改查無重新整理分頁程式

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

記錄一個自己放的小錯誤，python程式設計的，要注意同名變數！！！

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data import numpy as np import matplotlib.pyplot as plt tf.set_random_s

一個自己寫的字串匹配函式...

v3.0 1層迴圈 function match(x,y){ for(var j=0,i=0;j<y.length;j++) { if(x[i]==y[j]) i++; if(i==x.length) retu

記錄一下自己寫得小遊戲練習心得

飛機大戰最簡單的數字遊戲，費事一個小時左右寫完，卡在了scanf（“ %c”,&x）;忘記寫定址符號。新學：清屏函式：system(“cls”); 隨機數生成：srand(time(NULL));x=rand ()%10; 改進版本的飛機大戰增加移動靶

發一個自己寫的抓包軟體，支援外掛化指令碼分析

市場上的抓包工具已經足夠多，輕量級的，重量級的都有，典型的wireshark，smartsniff等，各有優缺點，PowerSniff是為程式設計師準備的一款抓包工具，目標是使協議解析外掛編寫更簡單。檔案格式完全相容wiareshark和tcpdump。原理：捕獲到資料就呼叫預設定的指令碼，將資料的指

記錄一下自己寫的正則表示式

由於本人的正則比較弱雞，故有意加強這方面的練習，同時記錄一下寫過的正則表示式匹配a連結 /<a[^>]*?href\s*=\s*["']([^"']*)["'][^>]*>([\s\S]*?)<\/a>/g 匹配img標籤 /<img[\s\

週末閒著無聊分享一個自己寫的帶呼吸效果的android水波紋自定義view

無圖無真相，廢話不多說先來看看最終效果：用法： 1.匯入自定義屬性檔案(將這個檔案放在 res/values 下) attrs.xml <span style="font-size:18px;"><?xml version="1.0" encodi

分享一個自己寫的用python比對資料庫表資料的指令碼

最近在做一個數據庫異構複製的專案,客戶表示需要一個數據比對的工具,我就自己寫了一個異構資料庫的比對python指令碼.這個比對指令碼只能比對數量,不能比對具體的記錄.使用的sql語句也是最基礎的select count(*) 這種,沒有開併發所以對大表可能比對時間稍長. 基

分享一個自己寫的WPF換膚窗體WPF.DazzleUI

最近自己在自學WPF，看了網上很多前輩的WPF例子，覺得很炫，自己也有點衝動，就嘗試著寫了一下。桌面程式嘛，要炫起來，當然首先得窗體先炫起來，所以就自己寫了一個可以換膚的WPF窗體基類。不多說，先上圖：怎麼樣，看起來效果還是不錯吧。先發個demo的下載地址：例

一個自己寫的PHP模板引擎

'; $stringHtml .= 'Error information: '; $stringHtml .= ''; $stringHtml .= $content; $stringHtml .= ''; $stringHtml .= ' '; exit($stringHtml); } } ?>

利用Android原始碼編譯一個自己寫的Hello World模組

這應該是我的Android底層開發第二篇文章，在編譯Android原始碼成功的基礎上又進一步利用Android原始碼編譯成功了一個自己寫的hello world，算入門第二步了。1、在android 原始碼路徑下的development路徑下建立hello路徑；2、建立he

分享一個自己寫的vue多語言插件smart-vue-i18n

https 實現 template contain 解析前言了解 pre prot 前言目前有比較成熟的方案（vue-i18n）了解了下，並且實用了一下感覺對於我在使用的項目來說略顯臃腫,功能比較多，所以壓縮的會比較大，在移動端不太適合所以自己花一天時間擼了一個vu

分享一個自己寫的取中國農歷相關數據的類。包含：農歷年月日，生肖，星座，年齡，天幹，地支等方法

png chinese 1.2 ins Oday 當前 for alt tdi 分享一個自己寫的取中國農歷相關數據的類。包含：農歷年月日，生肖，星座，年齡，天幹，地支等方法。此類自己花了一上午的時間寫的，適用於像相親網等類似的網站主要使用了微軟針對東亞地區的農歷類Chi

如何寫一個自己的渣渣PHP框架

.com 5% www tps tle title blank ref php 原文鏈接:https://www.opqnext.com/2017/01/18/%E5%A6%82%E4%BD%95%E5%86%99%E4%B8%80%E4%B8%AA%E8%87%AA%E5

自己寫一個文字過長顯示省略號的函數

bsp aaa poi var cti 顯示 adf 函數字符 function points(strin,num){ //strin表示目標字符，num表示在第幾個字符用省略號顯示　　var Str = "",len = strin.length; 　　if(len

oracle 10G 沒有 PIVOT 函數怎麽辦，自己寫一個不久有了

name 行轉列動態sql self. subst ger esc 10g 必須眾所周知，靜態SQL的輸出結構必須也是靜態的。對於經典的行轉列問題，如果行數不定導致輸出的列數不定，標準的答案就是使用動態SQL, 到11G裏面則有XML結果的PIVOT。但是 orac

C#.NET 程序員的福利，自己寫的一個XML操作類，可實現像jquery一樣方便的xml操作，且不用專門去處理命名空間。

console region ignorecas node 處理命名空間 void clone 一個此工具是進入一家新公司之後實現的，主要是工作當中操作 xml 的時間太多，因為公司按任務計“工作量”，領導給我安排的時間遠遠不夠完善此工具【悲哀的

統計自己寫了多少行代碼並記錄時間和行數

bar directory value string system lis text out txt package DAYTWO; import java.io.BufferedReader;import java.io.BufferedWriter;import jav

記錄一個自己寫的hiveUDAF

相關推薦