1. 程式人生 > 實用技巧 >Hive 自定義函式

Hive 自定義函式

Hive的SQL可以通過使用者定義的函式(UDF),使用者定義的聚合(UDAF)和使用者定義的表函式(UDTF)進行擴充套件。

當Hive提供的內建函式無法滿足你的業務處理需要時,此時就可以考慮使用使用者自定義函式(UDF)。

UDF、UDAF、UDTF的區別:

UDF(User-Defined-Function)一進一出

UDAF(User-Defined Aggregation Funcation)聚集函式,多進一出

UDTF(User-Defined Table-Generating Functions)一進多出,如lateral view explore()

使用者自定義函式(user defined function),針對單條記錄。編寫一個UDF,需要繼承UDF類,並實現evaluate()函式。在查詢執行過程中,查詢中對應的每個應用到這個函式的地方都會對這個類進行例項化。對於每行輸入都會呼叫到evaluate()函式。而evaluate()函式處理的值會返回給Hive。同時使用者是可以過載evaluate方法的。Hive會像

Java的方法過載一樣,自動選擇匹配的方法.

一、應用案例

1)全形轉半形

package com.sjck.hive.udf;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;

/**
 * 全形轉半形
 * @author Administrator
 *
 */
public class ToSingleByte extends UDF {

  public static String evaluate(String val) {
    if(StringUtils.isNotBlank(val)){
      
char c[] = val.toCharArray(); for (int i = 0; i < c.length; i++) { if (c[i] == '\u3000') { c[i] = ' '; } else if (c[i] > '\uFF00' && c[i] < '\uFF5F') { c[i] = (char) (c[i] - 65248); } } String returnString
= new String(c); return returnString; } return ""; } }
View Code

2)身份證資訊驗證

package com.sjck.hive.udf.util;

import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Calendar;
import java.util.Date;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
 * <p>
 * 身份證合法性校驗
 * </p>
 * 
 * <pre>
 * --15位身份證號碼:第7、8位為出生年份(兩位數),第9、10位為出生月份,第11、12位代表出生日期,第15位代表性別,奇數為男,偶數為女。
 * --18位身份證號碼:第7、8、9、10位為出生年份(四位數),第11、第12位為出生月份,第13、14位代表出生日期,第17位代表性別,奇數為男,偶數為女。
 *    最後一位為校驗位
 * </pre>
 * 
 * @author 313921
 */
public class IdCardUtil {
    
    private static Logger logger = LoggerFactory.getLogger(IdCardUtil.class);
     
        /**
         * <pre>
         * 省、直轄市程式碼表:
         *     11 : 北京  12 : 天津  13 : 河北       14 : 山西  15 : 內蒙古  
         *     21 : 遼寧  22 : 吉林  23 : 黑龍江  31 : 上海  32 : 江蘇  
         *     33 : 浙江  34 : 安徽  35 : 福建       36 : 江西  37 : 山東  
         *     41 : 河南  42 : 湖北  43 : 湖南       44 : 廣東  45 : 廣西      46 : 海南  
         *     50 : 重慶  51 : 四川  52 : 貴州       53 : 雲南  54 : 西藏  
         *     61 : 陝西  62 : 甘肅  63 : 青海       64 : 寧夏  65 : 新疆  
         *     71 : 臺灣  
         *     81 : 香港  82 : 澳門  
         *     91 : 國外
         * </pre>
         */
        private static String[] cityCode = { "11", "12", "13", "14", "15", "21",
                "22", "23", "31", "32", "33", "34", "35", "36", "37", "41", "42",
                "43", "44", "45", "46", "50", "51", "52", "53", "54", "61", "62",
                "63", "64", "65", "71", "81", "82", "91" };
     
        /**
         * 每位加權因子
         */
        private static int power[] = { 7, 9, 10, 5, 8, 4, 2, 1, 6, 3, 7, 9, 10, 5,
                8, 4, 2 };
     
        /**
         * 驗證所有的身份證的合法性
         * 
         * @param idcard
         *            身份證
         * @return 合法返回true,否則返回false
         */
        public static boolean isValidatedAllIdcard(String idcard) {
            if (idcard == null || "".equals(idcard)) {
                return false;
            }
            int s=15;
            if (idcard.length() == s) {
                return validate15IDCard(idcard);
            }
            int s1=18;
            if(idcard.length()==s1) {
                return validate18Idcard(idcard);
            }
            return false;
            
        }
     
        /**
         * <p>
         * 判斷18位身份證的合法性
         * </p>
         * 根據〖中華人民共和國國家標準GB11643-1999〗中有關公民身份號碼的規定,公民身份號碼是特徵組合碼,由十七位數字本體碼和一位數字校驗碼組成。
         * 排列順序從左至右依次為:六位數字地址碼,八位數字出生日期碼,三位數字順序碼和一位數字校驗碼。
         * <p>
         * 順序碼: 表示在同一地址碼所標識的區域範圍內,對同年、同月、同 日出生的人編定的順序號,順序碼的奇數分配給男性,偶數分配 給女性。
         * </p>
         * <p>
         * 1.前1、2位數字表示:所在省份的程式碼; 2.第3、4位數字表示:所在城市的程式碼; 3.第5、6位數字表示:所在區縣的程式碼;
         * 4.第7~14位數字表示:出生年、月、日; 5.第15、16位數字表示:所在地的派出所的程式碼;
         * 6.第17位數字表示性別:奇數表示男性,偶數表示女性;
         * 7.第18位數字是校檢碼:也有的說是個人資訊碼,一般是隨計算機的隨機產生,用來檢驗身份證的正確性。校檢碼可以是0~9的數字,有時也用x表示。
         * </p>
         * <p>
         * 第十八位數字(校驗碼)的計算方法為: 1.將前面的身份證號碼17位數分別乘以不同的係數。從第一位到第十七位的係數分別為:7 9 10 5 8 4
         * 2 1 6 3 7 9 10 5 8 4 2
         * </p>
         * <p>
         * 2.將這17位數字和係數相乘的結果相加。
         * </p>
         * <p>
         * 3.用加出來和除以11,看餘數是多少
         * </p>
         * 4.餘數只可能有0 1 2 3 4 5 6 7 8 9 10這11個數字。其分別對應的最後一位身份證的號碼為1 0 X 9 8 7 6 5 4 3
         * 2。
         * <p>
         * 5.通過上面得知如果餘數是2,就會在身份證的第18位數字上出現羅馬數字的Ⅹ。如果餘數是10,身份證的最後一位號碼就是2。
         * </p>
         * 
         * @param idcard
         * @return
         */
        public static boolean validate18Idcard(String idcard) {
            if (idcard == null) {
                return false;
            }
     
            // 非18位為假
            int s=18;
            if (idcard.length() != s) {
                logger.error("身份證位數不正確!");
                return false;
            }
            // 獲取前17位
            String idcard17 = idcard.substring(0, 17);
     
            // 前17位全部為數字
            if (!isDigital(idcard17)) {
                return false;
            }
     
            String provinceid = idcard.substring(0, 2);
            // 校驗省份
            if (!checkProvinceid(provinceid)) {
                return false;
            }
     
            // 校驗出生日期
            String birthday = idcard.substring(6, 14);
     
            SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd");
     
            try {
                Date birthDate = sdf.parse(birthday);
                String tmpDate = sdf.format(birthDate);
                // 出生年月日不正確
                if (!tmpDate.equals(birthday)) {
                    return false;
                }
     
            } catch (ParseException e1) {
     
                return false;
            }
     
            // 獲取第18位
            String idcard18Code = idcard.substring(17, 18);
     
            char c[] = idcard17.toCharArray();
     
            int bit[] = converCharToInt(c);
     
            int sum17 = 0;
     
            sum17 = getPowerSum(bit);
     
            // 將和值與11取模得到餘數進行校驗碼判斷
            String checkCode = getCheckCodeBySum(sum17);
            if (null == checkCode) {
                return false;
            }
            // 將身份證的第18位與算出來的校碼進行匹配,不相等就為假
            if (!idcard18Code.equalsIgnoreCase(checkCode)) {
                return false;
            }
     //System.out.println("正確");
            return true;
        }
     
        /**
         * 校驗15位身份證
         * 
         * <pre>
         * 只校驗省份和出生年月日
         * </pre>
         * 
         * @param idcard
         * @return
         */
        public static boolean validate15IDCard(String idcard) {
            if (idcard == null) {
                return false;
            }
            // 非15位為假
            int s=15;
            if (idcard.length() != s) {
                return false;
            }
     
            // 15全部為數字
            if (!isDigital(idcard)) {
                return false;
            }
     
            String provinceid = idcard.substring(0, 2);
            // 校驗省份
            if (!checkProvinceid(provinceid)) {
                return false;
            }
     
            String birthday = idcard.substring(6, 12);
     
            SimpleDateFormat sdf = new SimpleDateFormat("yyMMdd");
     
            try {
                Date birthDate = sdf.parse(birthday);
                String tmpDate = sdf.format(birthDate);
                // 身份證日期錯誤
                if (!tmpDate.equals(birthday)) {
                    return false;
                }
     
            } catch (ParseException e1) {
     
                return false;
            }
     
            return true;
        }
     
        /**
         * 將15位的身份證轉成18位身份證
         * 
         * @param idcard
         * @return
         */
        public static String convertIdcarBy15bit(String idcard) {
            if (idcard == null) {
                return null;
            }
     
            // 非15位身份證
            int s=15;
            if (idcard.length() != s) {
                return null;
            }
     
            // 15全部為數字
            if (!isDigital(idcard)) {
                return null;
            }
     
            String provinceid = idcard.substring(0, 2);
            // 校驗省份
            if (!checkProvinceid(provinceid)) {
                return null;
            }
     
            String birthday = idcard.substring(6, 12);
     
            SimpleDateFormat sdf = new SimpleDateFormat("yyMMdd");
     
            Date birthdate = null;
            try {
                birthdate = sdf.parse(birthday);
                String tmpDate = sdf.format(birthdate);
                // 身份證日期錯誤
                if (!tmpDate.equals(birthday)) {
                    return null;
                }
     
            } catch (ParseException e1) {
                return null;
            }
     
            Calendar cday = Calendar.getInstance();
            cday.setTime(birthdate);
            String year = String.valueOf(cday.get(Calendar.YEAR));
     
            String idcard17 = idcard.substring(0, 6) + year + idcard.substring(8);
     
            char c[] = idcard17.toCharArray();
            String checkCode = "";
     
            // 將字元陣列轉為整型陣列
            int bit[] = converCharToInt(c);
     
            int sum17 = 0;
            sum17 = getPowerSum(bit);
     
            // 獲取和值與11取模得到餘數進行校驗碼
            checkCode = getCheckCodeBySum(sum17);
     
            // 獲取不到校驗位
            if (null == checkCode) {
                return null;
            }
            // 將前17位與第18位校驗碼拼接
            idcard17 += checkCode;
            return idcard17;
        }
     
        /**
         * 校驗省份
         * 
         * @param provinceid
         * @return 合法返回TRUE,否則返回FALSE
         */
        private static boolean checkProvinceid(String provinceid) {
            for (String id : cityCode) {
                if (id.equals(provinceid)) {
                    return true;
                }
            }
            return false;
        }
     
        /**
         * 數字驗證
         * 
         * @param str
         * @return
         */
        private static boolean isDigital(String str) {
            return str.matches("^[0-9]*$");
        }
     
        /**
         * 將身份證的每位和對應位的加權因子相乘之後,再得到和值
         * 
         * @param bit
         * @return
         */
        private static int getPowerSum(int[] bit) {
     
            int sum = 0;
     
            if (power.length != bit.length) {
                return sum;
            }
     
            for (int i = 0; i < bit.length; i++) {
                for (int j = 0; j < power.length; j++) {
                    if (i == j) {
                        sum = sum + bit[i] * power[j];
                    }
                }
            }
            return sum;
        }
     
        /**
         * 將和值與11取模得到餘數進行校驗碼判斷
         * 
         * @param checkCode
         * @param sum17
         * @return 校驗位
         */
        private static String getCheckCodeBySum(int sum17) {
            String checkCode = null;
            switch (sum17 % 11) {
            case 10:
                checkCode = "2";
                break;
            case 9:
                checkCode = "3";
                break;
            case 8:
                checkCode = "4";
                break;
            case 7:
                checkCode = "5";
                break;
            case 6:
                checkCode = "6";
                break;
            case 5:
                checkCode = "7";
                break;
            case 4:
                checkCode = "8";
                break;
            case 3:
                checkCode = "9";
                break;
            case 2:
                checkCode = "x";
                break;
            case 1:
                checkCode = "0";
                break;
            case 0:
                checkCode = "1";
                break;
            default:
            }
            return checkCode;
        }
     
        /**
         * 將字元陣列轉為整型陣列
         * 
         * @param c
         * @return
         * @throws NumberFormatException
         */
        private static int[] converCharToInt(char[] c) throws NumberFormatException {
            int[] a = new int[c.length];
            int k = 0;
            for (char temp : c) {
                a[k++] = Integer.parseInt(String.valueOf(temp));
            }
            return a;
        }
     
    
    }
View Code
package com.sjck.hive.udf;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;

import com.sjck.hive.udf.util.IdCardUtil;

/**
 * 身份證資訊驗證
 * @author Administrator
 *
 */
public class VerifiyCardNo  extends UDF {

    public static String evaluate(String idcard,String returnType) {
        if(StringUtils.isNotBlank(idcard)){
            boolean validated= IdCardUtil.isValidatedAllIdcard(idcard);
            if(validated){
                String gender="未知";
                String birthday="未知";
                String birthday_region="未知";
                idcard=idcard.length()==15?IdCardUtil.convertIdcarBy15bit(idcard):idcard;
                String checkCode = String.valueOf(idcard.charAt(16));
                int parseInt = Integer.parseInt(checkCode);
                gender=parseInt%2==0?"女":"男";
                returnType=returnType.toUpperCase();
            if(StringUtils.isNotBlank(returnType)){
                if("BIRTHDAY".equals(returnType)){
                    birthday= idcard.substring(6, 14);
                    return birthday;
                }else if("GENDER".equals(returnType)){
                    return gender;
                }else if("BIRTHDAY_REGION".equals(returnType)){
                    birthday_region=idcard.substring(0, 6);
                    return birthday_region;
                }
            }
            }
        }
        return "未知";
    }
     public static void main(String[] args) {
          
            System.out.println(VerifiyCardNo.evaluate("412721199507105418","BIRTHDAY"));
            System.out.println(VerifiyCardNo.evaluate("412721199507105418","GENDER"));
            System.out.println(VerifiyCardNo.evaluate("51010720001205584X","BIRTHDAY"));
        }
     
}  
View Code

二、新增jar的三種方式

1)使用add jar jarpath/hive-udf.jar;方法加入

該方法的缺點是每次啟動Hive的時候都要從新加入,退出hive就會失效。

2)通過設定hive的配置檔案hive-site.xml 加入

在配置檔案中增加配置
<property>
<name>hive.aux.jars.path</name>
<value>file:///jarpath/hive-udf1.jar,file:///jarpath/hive-udf2.jar</value>
</property>
儲存即可

該方法比第一種方法方便很多。不需要每次啟動Hive執行命令加入,只是配置稍微複雜一些

3)在${HIVE_HOME}下建立auxlib目錄,將UDF檔案放到該目錄中,這樣hive在啟動時會將其中的jar檔案載入到classpath中

這種方法,方便快捷,不需要重啟HVIE服務

三、 函式宣告:

//建立臨時函式

create temporary function toSingleByteas'com.sjck.hive.udf.ToSingleByte';

//建立永久函式

create function toSingleByteas'com.sjck.hive.udf.ToSingleByte';

create function verifiyCardNo as 'com.sjck.hive.udf.VerifiyCardNo';

刪除永久函式

drop function toSingleByte;

drop function verifiyCardNo;

個人是hive的udf 放在 hdfs上

hadoop fs -mkdir/user/hive/udf

hadoop fs -put hive-udf.jar /user/hive/udf/

create functionto singlebyte AS 'com.sjck.hive.udf.ToSingleByte' using jar 'hdfs://master01:8020/user/hive/udf/hive-udf.jar';

create function verifiycardno AS 'com.sjck.hive.udf.VerifiyCardNo'using jar 'hdfs://master01:8020/user/hive/udf/hive-udf.jar';