hive函式-數學函式可在特徵工程中使用

阿新 • • 發佈：2018-12-30

hive中資料函式可以直接在提取特徵中使用，如均值、方差、最大值、最小值、協方差等，重點關注以下的聚合函式內容。

一、hive函式之數學函式
round(double d)--返回double型d的近似值（四捨五入），返回bigint型；
round(double d,int n)--返回保留double型d的n位小數double型近似值（四捨五入）；
floor(double d)--返回<=d的最大bigint值；
ceil(double d)--返回>=d的最小bigint 值；
ceiling(double d)--返回>=d的最小bigint 值；
rand() --每行返回一個double型隨機數；
rand(int seed) --每行返回一個double型隨機數，整數seed是隨機因子；
exp(double d)--返回e的 d冪次方，返回double型；
ln(double d)--以自然數為底d的對數，返回double型；
log10(double d)--以10為底d的對數，返回double型；
log2(double d)--以2為底d的對數，返回double型；
log(double base,double d)--以base為底d的對數，返回double型；
pow(double d,double p)--d的p次冪，返回double型；
power(double d,double p)--d的p次冪，返回double型；
sqrt(double d)--d的平方根，返回double型；
bin(bigint i)--二進位制i的string型別；
hex(bigint i)--十六進位制i的string型別；
hex(string str)--計算十六進位制表達的str值；
unhex(string i)--hex(string str)的逆方法；
conv(bigint num,int from_base,int to_base)--將bigint型別的num從from_base進位制轉換成to_base進位制，返回string型別；
conv(string num,int from_base,int to_base)--將string型別的num從from_base進位制轉換成to_base進位制，返回string型別；
abs(double d)--計算double型d 的絕對值，返回double型；
pmod(int i1,int i2)--int型i1對 int型 i2取模，結果為int型；
pmod(double d1,double d2)--double型i1對double型 i2取模，結果為double型；
sin(double d)--返回d的正弦值，結果為double型；
asin(double d)--返回d的反正弦值，結果為double型；
cos(double d)--返回d 的餘弦值，結果為double型；
acos(double d)--返回d的反餘弦值，結果為double型；
tan(double d)--返回d的正切值，結果為double型；
atan(double d)--返回d的反正切值，結果為double型；
degrees(double d)--將弧度值d轉換成角度值，結果為double型；
radians(double d)--將角度值d轉換成弧度值，結果為double型；
positive(int i)--等價有效表示式是\+i,返回i，結果為int型；
positive(double d)--等價有效表示式是\+d，返回d,結果為double型；
negative(int i)--等價有效表示式是-i，返回i的負數，結果為int型；
negative(double d)--等價有效表示式是-i，返回d的負數，結果為double型；
sign(double d)--如果d是正數的話，則返回float型1.0，如果d是負數的話，則返回-1.0，否則返回0.0；
e()--數學常熟e,超越數；
PI()--數學常數Pi，圓周率；

二、hive函式之聚合函式

count(*)--計算總行數，包括null值；
count(expr)--計算expr表示式的值，非null的行數；
count(distinct expr[,expr_.])--計算expr表示式的值排重後非null的行數；
sum(col)--指定行的值的和；
sum(distinct col)--排重後值的和；
avg(col)--指定行的值的平均值；
avg(distinct col)--排重後的值的平均值；
min(col)--指定行的值的最小值；
max(col)--指定行的值的最大值；
variance(col)--返回col 中一組數值的方差；
var_pop(col)---返回col 中一組數值的方差；
var_samp(col)--返回col 中一組數值的樣本方差；
stddev_pop(col)--返回col 中一組數值的標準偏差；
stddev_samp(col)--返回col 中一組數值的樣本偏差；
covar_pop(col1,col2)--返回一組數值的協方差；
covar_samp(col1,col2)--返回一組數值的樣本協方差；
corr(col1,col2)--返回兩組數值的相關係數；
percentile(bigint int_expr,p)--int_expr在p（範圍是[0,1]）處對應的百分比，其中p是double型；
percentile(bigint int_expr,array(p1[,p2…]))--int_expr在p（範圍是[0,1]）處對應的百分比，其中p是double型陣列；
percentile(double col,p[,NB])--col在p（範圍是[0,1]）處對應的百分比，其中p是double型,NB是用於估計的直方圖中的倉庫數量（預設10000）；
percentile_approx(double col,array(p1[,p2…])[,NB])--col在p（範圍是[0,1]）處對應的百分比，其中p是double型陣列,NB是用於估計的直方圖中的倉庫數量（預設10000）；
histogram_numeric(col,NB)--返回NB數量的直方圖倉庫陣列，返回結果array<struct{'x','y'}>中的值x是中心，y是倉庫的高；
collect_set(col)--返回集合col元素排重後的陣列；
set hive.map.aggr=true; --通過設定屬性hive.map.aggr值為true來提高聚合效能；

三、hive函式之表生成函式

當時用表生成函式時，hive要求使用別名；
explode(ARRAY array)--返回0到多行結果，每行都對應輸入的array陣列中的一個元素；
explode(MAP map)--返回0到多行結果，每行對應每個map鍵-值對，其中一個欄位是map鍵，另一個欄位是對應的map值；
explode(ARRAY<TYPE> a)--對於a的每個元素，explode()會生成一行記錄包含這個元素；
inline(ARRAY<STRUCT[,STRUCT]>)--將結構體陣列提取出來並插入到表中；
json_tuple(STRING jsonStr,p1p2,…,pn)--本函式可以接受多個標籤名稱，對於輸入的json字串進行處理，這個與get_json_object類似，不過更高效，通過一次呼叫就可以獲得多個鍵值；
parse_url_tuple(url,partname1,partname2,…,partnameN)--從url中解析出n部分資訊，其輸入引數是url，以及多個要抽取部分的名稱。所有輸入的引數型別都是string，部分名稱大小寫是敏感的，不應該包含空格：HOST,PATH,QUERY,REF,PROTOCOL,AUTHORITY,FILE,USERINFO,QUERY:<KEY_NAME>；
stact(int n,col1,col2,…,colM)--把M列換成N行，每行有M/N個欄位，n為常數；

四、hive函式之其他內建函式

ascii(string s)--返回字串s中首個ASCII字元的整數型；
base64(binary bin)--基於二進位制值bin轉換成基於64位的字串；
binary(srting s)--將輸入的值轉換成二進位制值；
binary(BINARY b)--將輸入的值轉換成二進位制值；
cast(<expr> as <type>)--將expr轉換成type型別的，例如cast('1' as bigint)會將字串轉換成bigint數值型別，如果轉換失敗，則返回null；
concat(binary s1,binary s2,…)--將二進位制位元組碼按次序拼接成一個字串；
concat(string s1,string s2,…)--將字串s1,s2等拼接成一個字串，例如concat('ab','cd')的結果是 'abcd'；
concat_ws(string separator,string s1,string s2,…)--與concat類似，不過是使用指定的分隔符進行拼接的；
context_ngrams(array<array<string>>,array<string>,int K,int pf)--與ngrams類似，但是從每個外層陣列的第二個單詞陣列來查詢前K個字尾；
decode(binary bin,string charset)--使用指定的字符集charset將二進位制bin解碼成字串（支援的字符集有：'US_ASCII','IOS-8859-1','UTF-8','UTF-16BE','UTF-16FE','UTF-16'），如果任一項輸入引數為null，則結果為null；
encode(string src,string charset)--使用指定的字符集charset將字串src編碼成二進位制值（支援的字符集有：'US_ASCII','IOS-8859-1','UTF-8','UTF-16BE','UTF-16FE','UTF-16'），如果任一項輸入引數為null，則結果為null；
find_in_set(string s,string commaSeparatedString)--返回在以逗號分隔的字串中s出現的位置，如果沒找到則返回null；
format_number(number x,int d)--將數值x轉換成‘#,###,###.##’格式字串，並保留d位小數。如果d為0，那麼輸出值就沒有小數點後面的值；
get_json_object(string json_string,string path)--從給定路徑上的json字串中抽取json物件，並返回這個物件的json字串形式。如果輸入的json是非法的，則返回null；
in--例如test in(val1,val2,…),其表示如果test值等於後面列表中任一值的話，則返回true；
in_file(string s,string filename)--如果檔名為filename的檔案中有完整一行資料和字串s完全匹配的話，則返回true；
instr(string str,string substr)--查詢字串str中子字串substr第一次出現的位置；
length(string s)--計算字串s的長度；
locate(string substr,string str[,int pos])--查詢字串str中pos位置後字串substr第一次出現的位置；
lower(string s)--將字串中所有字母轉換成小寫字母；
lcase(string s)--和lower()一樣；
lpad(string s,int len,string pad)--從左邊開始對字串s使用字串pad進行填充，最終達到len長度為止。如果字串s本身長度比len大的話，那麼多餘部分會被去除；
ltrim(string s)--將字串s前面出現的空格全部去除掉；
ngram(array<array<string>>,int N,int K,int pf)--估計檔案中前K個字尾。pf是精度係數；
parse_url(string url,string partname[,string key])--從url中抽取指定部分的內容。引數url表示一個url字串，引數partname表示要抽取的部分名稱，其是大小寫敏感的，可選的值有：HOST,PATH,QUERY,REF,PROTOCOL,AUTHORITY,FILE,USERINFO,QUERY:<KEY>；如果partname是QUERY的話，那麼還需要指定第三個引數key；
printf(string format,Obj…args)--按照printf風格格式化輸出輸入的字串；
regexp_extract(string subject,string regexp_pattern,string index)--抽取字串subject中符合正則表示式regexp_pattern的第 index個部分的子字串；
regexp_relpace(string s,string regex,string replacement)--按照java正則表示式regex將字串s中符合條件的部分替換成replacement所指定的字串a，如果replacement部分是空的話，那麼符合正則的部分將會被去除掉。如regexp_relpace('hive','[ie]','z')的結果是'hzvz'；
repeat(string s,int n)--重複輸入n次字串s；
reverse(string s)--反轉字串；
rpad(string s,int len,string pad)--從右面開始對字串s使用字串pad進行填充，最終達到len長度為止，如果字串s本身長度比len大的話，那麼多餘部分將會被去除；
rtrim(string s)--將字串s右面出現的空格全部去除掉；
sentences(string s,string lang,string locale)--將輸入字串s轉換成句子陣列，每個句子又由一個單詞陣列構成，單詞lang和locale是可選的，如果沒有使用，則使用預設本地化資訊；
size(MAP<K.V>)--返回map中元素的個數；
size(ARRAY<T>)--返回陣列array的元素個數；
space(int n)--返回n個空格；
split(string s,string pattern)--按照正則表示式pattern分割字串s,並將分割後的部分以字串陣列的方式返回；
str_to_map(string s,string delim1,string delim2)--將字串s按照指定分隔符轉化成map，第一個引數是輸入的字串，第二個引數是鍵值對之間的分隔符，第三個引數是鍵和值之間的分隔符；
substr(string s,string start_index,string length)--對於字串s，從start位置開始擷取length長度的字串，作為子字串，例如substr('abcdefgh',3,5)的結果是'cdefg'；
substring(string s,string start_index,string length)--對於字串s，從start位置開始擷取length長度的字串，作為子字串，例如substr('abcdefgh',3,5)的結果是'cdefg'；
substr(binary s,string start_index,string length)--對於二進位制位元組值s，從start位置開始擷取length長度的字串，作為子字串；
substring(binary s,string start_index,string length)--對於二進位制位元組值s，從start位置開始擷取length長度的字串，作為子字串；
trim(string a)--將字串a前後出現的空格全部去掉；
unbase64(string str)--將基於64位的字串str轉換成二進位制值；
upper(string a)--將字串中所有的字母轉換成大寫字母；
ucase(string a)--將字串中所有的字母轉換成大寫字母；
from_unixtime(bigint unixtime[,string format])--將時間戳秒數轉換成UTC時間，並用字串表示，可以通過format規定的時間格式，指定輸出的時間格式；
unix_timestamp()--獲取當前本地時區下的當前時間戳，例如：1534132825；
unix_timestamp(string date)--輸入的時間字串格式必須是yyyy-MM-dd HH:mm:ss,如果不符合則返回0，如果符合則將此時間字串轉換成Unix時間戳，例如unix_timestamp('2009-03-20 11:30:01')=1237519801；
unix_timestamp(string date,string pattern)--將指定時間字串格式轉換成Unix時間戳，如果格式不對，則返回0，例如unix_timestamp('2009-03-20','yyyy-MM-dd')=1237478400；
to_date(string timestamp)--返回時間字串的日期部分，例如：to_date("1970-01-01 00:00:00")="1970-01-01"；
year(string date)--返回時間字串中的年份並使用int型別表示。例如：year("1970-01-01 00:00:00")="1970"；
month(string date)--返回時間字串中的月份並使用int型別表示。例如：month("1970-01-01 00:00:00")="1"；
day(string date)--返回時間字串中的天並使用int型別表示。例如：day("1970-01-01 00:00:00")="1"；
dayofmonth(string date)--返回時間字串中的天並使用int型別表示。例如：day("1970-01-01 00:00:00")="1"；
hour(string date)--返回時間字串中的小時並使用int型別表示。例如：hour("1970-01-01 11:58:59")="11"；
minute(string date)--返回時間字串中的分鐘數；
second(string date)--返回時間字串中的秒數；
weekofyear(string date)--返回時間字串位於一年中第幾個周內，例如：weekofyear("1970-11-01 11:58:59")="44"；
datediff(string enddate,string startdate)--計算開始時間startdate到結束時間enddate相差的天數，例如 datediff('2009-03-01','2009-02-27')=2；
date_add(string startdate,int days)--為開始時間startdate增加days天。例如：date_add('2018-12-31',1)='2009-01-01'；
date_sub(string startdate,int days)--從開始時間startdate減去days天。例如date_sub('2008-12-31',1)='2018-12-30'；
from_utc_timestamp(TIMESTAMP timestamp,STRING timezone)--如果給定的時間戳並非UTC,則將其轉化成指定的時區下的時間戳；
to_utc_timestamp(TIMESTAMP timestamp,STRING timezone)--如果給定的時間戳是指定的時區下的時間戳，則將其轉化成UTC下的時間戳；

hive函式-數學函式可在特徵工程中使用

hive函式-數學函式可在特徵工程中使用

評分卡模型之特徵工程中的BadRate單調與特徵分箱之間的聯絡

C 中的數學函式彙總

MySQL 中的函式--------日期函式，字串函式，數學函式，一些其他函式

ios中常用的數學函式

hive中的高階函式-視窗函式

CLion工程中只能有一個main函式 &&怎麼同時編寫多個main函式的C檔案

C/C++中部分常見數學函式

cmath庫中常用的數學函式

在同一個解決方案下，如何從一個工程中呼叫另外一個工程的函式

delphi中的常用數學函式與十六進位制轉成float

小結下：Maltba中的匿名函式，函式函式，子函式以及feval函式

高等數學-函式一

php 數學函式

hive 內建函式

組合數學-普通型生成函式(母函式)-hdu2082 找單詞

常用的數學函式-S

Java開發筆記（十一）常見的數學函式

為什麼inline函式應該在標頭檔案中定義？【轉】

C++函式中那些不可以被宣告為虛擬函式的函式

hive函式-數學函式 可在特徵工程中使用

相關推薦

hive函式-數學函式可在特徵工程中使用