hive之Python UDF函式操作map資料詳解全是乾貨

阿新 • • 發佈：2019-01-26

#1、Hive基本操作：檢視dw.full_h_usr_base_user的詳細資訊，可以獲取資料檔案的存放路徑 desc formatted dw.full_h_usr_base_user; dfs -ls dfs -ls hdfs://BIGDATA:9000/user/hive/warehouse/dw.db/full_h_usr_base_user; 刪除外表full_h_usr_base_user的資料 dfs -rmdir dfs -ls hdfs://BIGDATA:9000/user/hive/warehouse/dw.db/full_h_usr_base_user; #192.168.1.181 192.168.1.1

#2、建立帶有map資料型別的外表 create external table dw.full_h_usr_base_user( user_id string comment '使用者id', reg_ip string comment 'ip', reg_ip_geo_map map<string,string> comment --map資料型別建立方法 'city_id,city_name,isp,province_id,province_name,country_id,country_name,postzip,district,province'

) comment '使用者測試表' partitioned by(ds string comment '當前時間,用於分割槽欄位') row format delimited fields terminated by '\t' collection items terminated by ","--map鍵值對逗號分割 map keys terminated by ":"--map鍵值冒號分割 stored as TEXTFILE;--儲存為文字型別 #3、載入資料（指定user_id和reg_ip即可，reg_ip_geo_map可以通過UDF運算出來） load data local inpath '/opt/data/dw.full_h_usr_base_user.del'

overwrite into table dw.full_h_usr_base_user partition(ds='2017-09-25'); #4、自定義函式：Python UDF函式ip_to_num.py
#coding=utf-8
#Version:python3.5.2
#Tools:Pycharm
#Date:
__author__ = "Colby"
import socket
import struct
import sys,datetime
ipDB='/opt/data/IP_utf-8.csv'
for line in sys.stdin:
    line = line.strip()
    user_id, reg_ip, reg_ip_geo_map, ds = line.split('\t')
    num_ip = int(socket.ntohl(struct.unpack("I", socket.inet_aton(str(reg_ip)))[0]))
    f = open(ipDB, 'r', encoding="utf-8")
    ipDict = {}
    count = 0
for line in f:
        if count == 9:
            count += 1
continue
line = line.split(',')
        if int(line[2]) <= num_ip and int(line[3]) >= num_ip:
            ipDict['IP'] = reg_ip
            ipDict['nationality'] = line[4]
            ipDict['province'] = line[5]
            ipDict['city'] = line[6]
            ipDict['Corporation'] = line[8]
            reg_ip_geo_map=str(ipDict)[1:-1].replace('\'','').replace(' ','')
            print('\t'.join([user_id, reg_ip, reg_ip_geo_map,ds]))
    f.close()
#5、將udf函式檔案上傳檔案到伺服器指定目錄 /opt/udf/ /opt/udf/ip_to_num.py #6、進入hive命令列，add檔案 add file /opt/udf/ip_to_num.py; #Added resources: [/opt/udf/ip_to_num.py] #7、使用udf函式並進行測試 SELECT TRANSFORM (user_id, reg_ip, reg_ip_geo_map, ds) USING 'python3 ip_to_num.py' AS (user_id, reg_ip, reg_ip_geo_map, ds) FROM dw.full_h_usr_base_user; #8、函式處理資料，並且overwrite表dw.full_h_usr_base_user，注意動態分割槽引數 set hive.exec.dynamic.partition.mode=nonstrict; insert overwrite table dw.full_h_usr_base_user partition(ds) select user_id ,reg_ip ,str_to_map(reg_ip_geo_map,',',':') as reg_ip_geo_map ,ds from ( SELECT TRANSFORM (user_id, reg_ip, reg_ip_geo_map,ds) USING 'python3 ip_to_num.py' AS (user_id, reg_ip, reg_ip_geo_map,ds) FROM dw.full_h_usr_base_user ) as a ; #9、查詢處理好的資料，學會查詢map型別的資料 select user_id ,reg_ip_geo_map['province'] ,reg_ip_geo_map['city'] ,reg_ip_geo_map['nationality'] from dw.full_h_usr_base_user where ds='2017-09-25' and user_id='1000000015'; 輸出結果： OK 1000000015 安徽省合肥市中國 Time taken: 0.107 seconds, Fetched: 1 row(s) #動態分割槽，將字元創轉換成MAP #set hive.exec.dynamic.partition.mode=nonstrict; #insert into dw.full_h_usr_base_user partition(ds) #select user_id #, reg_ip #, str_to_map(reg_ip_geo_map) reg_ip_geo_map #,ds from dw.full_h_usr_base_user_tmp;

hive之Python UDF函式操作map資料詳解全是乾貨

#1、Hive基本操作：檢視dw.full_h_usr_base_user的詳細資訊，可以獲取資料檔案的存放路徑 desc formatted dw.full_h_usr_base_user

Java 8 集合之流式(Streams)操作, Streams API 詳解

因為當時公司的業務需要對集合進行各種各樣的業務邏輯操作,為了提高效能，就用到了這個東西，因為以往我們以前用集合都是需要去遍歷(序列)，所以效率和效能都不是特別的好，而Streams就可以使用並行的方式來操作集合。 Stream 就如同一個迭代器（Iterator），單向，不可往復，資料只能遍歷一次，遍歷過一

hive之----建立udf自定義函式或刪除函式異常: Failed to read external resource

1. 建立永久函式: 首先將打好的jar包上傳好hdfs 執行命令 : create function 函式名 as 'udf類的全路徑(包名+類名)' using jar "自己的jar包存放在hdfs的路徑"; 原因: 由於hdfs後面的ip加上埠

python高階函式，map，filter，reduce，ord，以及lambda表示式

為什麼我突然扯出這麼幾個函式，是因為我今天在看流暢的python這本書的時候，裡面有一部分內容看的有點懵逼。 >>> symbols = '$¢£¥€¤' >>> beyond_ascii = [ord(s) for s in symbols if ord(s)

IDEA建立Hive中的UDF函式，白話文講解

1.UDF函式建立步驟 1.要編寫一個java類繼承UDF這個類。 2.重寫evaluate()方法。 3.使用maven打包。 1.打包步驟 2.點選install 在點選clean 再點選package完成打包。 4、將jar包上傳並新增到hive hive (default)

Python零基礎入門之函式的修飾器詳解！

內嵌函式要理解修飾器，首先要知道python的內嵌函式。在函式內部可以建立另外一個函式，不過內部函式也只能在外部函式的作用域之內呼叫才有效。如果內部函式定義中包含了外部函式定義的物件的引用，內部函式會被稱為閉包私信小編007即可獲取小編精心準備的大禮包一份哦！

(轉)Python內建函式進階之“屬性（property（））”詳解

原文：https://blog.csdn.net/GeekLeee/article/details/78519767 版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://blog.csdn.net/GeekLeee/article/details/78519767屬性函式（property

Hive面試題：hive有哪些udf函式，作用

UDF（user-defined function）作用於單個數據行，產生一個數據行作為輸出。（數學函式，字串函式） UDAF（使用者定義聚集函式 User- Defined Aggregation Funcation）：接收多個輸入資料行，併產生一個輸出資料行。（count，max）

hive----自定義UDF 函式-----時間格式化以及取出雙引號的程式碼

一.UDF的描述使用者自定義函式(UDF)是一個允許使用者擴充套件HiveQL的強大的功能。使用者可以使用Java編寫自己的UDF，一旦將使用者自定義函式加入到使用者會話中(互動式的或者通過指令碼執行的)，它們就將和內建的函式一樣使用，甚至可以提供聯機幫助。

hive 自定義udf函式

上一篇中介紹到了一些hive 中一些預設的function 但是在日常的開發需求中這個肯定是滿足不了我們的，下面介紹一下hive 的自定義function 廢話不多少了先寫個簡單的例子壓壓驚首先給出工程依賴 <dependencies> <depen

不得不知的python高階函式（Map、Reduce、Filter）

Map函式 map()函式接收兩個引數，一個是函式，一個是序列，map將傳入的函式依次作用到序列的每個元素，並把結果作為新的list返回。舉例說明比如我們有一個函式f(x)=x2，要把這個函式作用在一個list [1, 2, 3, 4,

python 高階函式筆記map, filter, reduce

ay17： 1.高階函式：特點：函式的形參位置必須接受一個函式物件分類學習： 1).map(fn,lsd1,[lsd2...])：引數一：fn --> 函式物件引數二：lsd1 --> 序列物件(字串、列表、range...) 功能：將fn

python針對記事本操作以及資料夾操作

#-*-coding:utf-8-*-'''建立記事本，編寫內容，檢視內容，格式化筆記本，備份與恢復本地記事本，日誌內容過濾write()函式writelines()函式os 函式copyfile()和move()函式replace()函式替換字串mkdir()函式建立檔案目錄makedir

遇見hive之記憶篇--運用sqoop對資料的同步的常見錯誤，及hive的儲存格式分析（壓縮格式）

前面所記載的差不多都涵蓋到了，但是總是覺得有很多知識點沒有記到，在這裡梳理一遍1、sqoop的匯入,這次測試完全分散式對sqoop的快速匯入的測試嘗試了cdh分散式下的hive的配置，及sqoop的配置，才發現和偽分散式的單節點的部署一模一樣，並沒有其他要注意的東西，就那個，

Python之日期操作及轉換詳解

# 匯入datetime模組，用以操作時間 import datetime # 匯入time模組 import time # 獲取當前時間格式：年-月-日時：分：秒 . 毫秒 nowTime = datetime.datetime.now() pri

Hive自定義UDF函式--常用的工具類

註冊函式：將自定義函式打成jar包，上傳hdfs$hive>create function formattime as 'com.air.udf.FormatTimeUDF' using jar 'hdfs://mycluster/user/centos/air-hiv

hive自定義UDF函式

一、自定義函式流程要想在Hive中完成自定義函式的操作，要按照如下的流程進行操作：定義Java類並實現org.apache.hadoop.hive.ql.exec.UDF——>覆寫evaluate——>將Java工程上傳到Hive所在伺服器(我這裡是Cen

Hadoop Hive基礎SQL語法(DML 操作:元資料儲存)

2. DML操作:元資料儲存 hive不支援用insert語句一條一條的進行插入操作，也不支援update操作。資料是以load的方式載入到建立好的表中。資料一旦匯入就不可以修改。 DML包括：INSERT插入、UPDATE更新、DELETE刪除 •向

Python的Excel操作及資料視覺化

Excel表操作 python操作excel主要用到xlrd和xlwt這兩個庫，即xlrd是讀excel，xlwt是寫excel的庫。安裝xlrd pip install xlrd 簡單的表格讀取 import xlrd #讀取表格 data=xlrd.open_workbook("table.x

Python爬蟲從入門到成妖之3-----Scrapy框架的命令行詳解

參數成了 openssl 入門文件中 crawler 1.0 使用 lob 創建爬蟲項目 scrapy startproject 項目名例子如下： E:\crawler>scrapy startproject test1 New Scrapy pro

hive之Python UDF函式操作map資料 詳解 全是乾貨

相關推薦

hive之Python UDF函式操作map資料詳解全是乾貨