hive的(ql)hql使用和基於UDF的用法;以及java對hive的遠端訪問

阿新 • • 發佈：2018-11-02

1>hive下建立表並匯入資料

　　(資料可以是本地的,也可以是hdfs上的)

>建立本地檔案
[[email protected] /]# vi student
　　1,xiaoming
　　2,xiaohong
　　3,xiaogang
　　4,tom
　　5,tim
>hive下建立表;desc table;檢視自己建立的表結構
　　create table t1(id int,name String) row format delimited fields terminated by ',';
>將本地檔案匯入表中
　　load data local inpath  
'/student' into table t1;

>每次上傳同一個資料到同一個表中,會自動拷貝一份,所以可以使用overwrite
　　load data local inpath '/student'  overwrite into table t1;
>查看錶中資料: 　　select * from t1;
>統計表裡面一共有多少條記錄；
　　select count(id) from t1; 　　　　#執行的時候執行在mapredurce上
>刪除表
　　drop table t1;

2>內部表與外部表

　外部表和內部表在元資料的組織上是相同的，而實際資料的儲存則有較大的差異內部表的建立過程和資料載入過程（這兩個過程可以在同一個語句中完成），在載入資料的過程中，實際資料會被移動到資料倉庫目錄中；之後對資料對訪問將會直接在資料倉庫目錄中完成。刪除表時，表中的資料和元資料將會被同時刪除

　外部表只有一個過程，載入資料和建立表同時完成，並不會移動到資料倉庫目錄中，只是與外部資料建立一個連結。當刪除一個外部表時，僅刪除該連結

>建立內部表步驟如上,相比缺少了external關鍵字的使用
>建立外部表
create external table t2 (id int,name String) row format delimited fields
terminated by ',';

3>建立分割槽表

　　把不同型別的資料放到不同的目錄下；

1>建立分割槽表
　　create table t3 (id int 
 ,name String ) partitioned by (subid int ) row
　　format delimited fields terminated by ',';
2>向表中插入資料
　　load data local inpath '/student' into table t3 partition(subid=1) ;
　　load data local inpath '/student2' overwrite into table t3 partition(subid=2) ;
3>查詢分割槽:
　　hive> show partitions t3;
4>查詢分割槽的某個檔案
　　select * from t3 where subid=2;
效果如圖:t3這個目錄中含有兩個不同的資料表,查詢的時候可以提高效率

4>基於UDF對錶中資料的查詢操作:

寫一個類繼承與hive的UDF類,寫一個方法,必須是evaluate,支援過載

package com.zhiyou.han.udf;

import java.util.HashMap;
import java.util.Map;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public class MyUDF extends UDF{

        private static Map<String, String> map= new HashMap<String, String>();
        
        
        static {
            map.put("xiaoming", "小明");
　　　　　　　map.put("xiaohong", "小紅");
        }
        
        public static Text evaluate(Text name) {
            String getName = name.toString();
            
            String chainName = map.get(getName);
            
            if(chainName==null) {
                chainName = "null";
            }
            return new Text(chainName);
        }
    
}

>將這個類到處jar包上傳liunx下　　/注意jar包的地址

　　hive> add jar /U.jar;

>命名臨時函式名:

　　hive> create temporary function U as 'com.zhiyou100.udf.MyUDF';

>平常查出結果是這樣的

　　hive> select id ,name from t1;
　　　　OK
　　　　1 xiaoming
　　　　2 xiaohong
　　　　3 xiaogang

>使用UDF查詢後

　　hive> select id ,U(name) from t1;
　　　　OK
　　　　1 小明
　　　　2 小紅
　　　　3 無名

>銷燬臨時的函式

　　hive> drop temporary function U;

>刪除jar包

　　hive> delete jar /U.jar

5>使用java遠端訪問liunx下的hive

1>與jdbc的執行流程是一樣的
　　jdbc的執行流程：
　　　　1.載入驅動
　　　　2.建立連線
　　　　3.準備sql
　　　　4.執行sql
　　　　5.處理結果
　　　　6.釋放資
2>liunx下啟動hive的遠端服務:

>啟動遠端服務:
　　#hive --service hiveserver 　　　　//版本1的
　　#hive hiveserver2　　　　　　　　　　//版本2的

>啟動過程中在liunx下使用命令連線看是否能成功連線上
　　  beeline -u jdbc:hive2://ip:10000/資料庫名  IP 可以寫自己的主機名或是自己的主機的IP地址
>報錯如下
　　 >出現root is not allowed tp (state=08S01,code=0)
　　　　需要在hadoop配置檔案下core-site.xml檔案中加入如下程式碼: 然後停止(stop-all.sh)hadoop,在啟動(start-all.sh)hadoop,其中不需要預格式化,然後重新啟動hive(直接輸入hive)

　　<property>    
        <name>hadoop.proxyuser.root.hosts</name>    
        <value>*</value>
   </property>
   <property>    
        <name>hadoop.proxyuser.root.groups</name>    
        <value>*</value>
   </property>

　　>如果報錯:　　inode="tmp/hive"  root:supergroup:drwx----　　是因為許可權的問題

執行一下該命令
   　hdfs dfs -chmod -R 777  /tmp/

3>執行完上述步驟,保證可以遠端訪問:　

然後寫java程式碼如下:

package com.zhiyou.han.hiveApi;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;

import org.apache.hadoop.io.Text;

import com.zhiyou.han.udf.MyUDF;

public class HiveApi {

    // 要求必須liunx下hive開啟遠端服務,和訪問本地的的mysql資料庫一個原理
    
    public static void main(String[] args) throws Exception {
        // 1.載入驅動

        Class.forName("org.apache.hive.jdbc.HiveDriver");

        // 2.建立連線,輸入自己的IP,且埠號為　　1000

        String url = "jdbc:hive2://192.168.188.130:10000/default";

        String user = "root";

        String password = "root";

        Connection conn = DriverManager.getConnection(url, user, password);

        // 3.準備sql語句    

        String sql = "select id,name from t2";

        PreparedStatement ps = conn.prepareStatement(sql);

        // 4.執行sql語句

        ResultSet rs = ps.executeQuery();

        // 5.處理結果
        while (rs.next()) {
　　　　　　　//這部分可以自己發揮寫,只要資料對照資料庫中的名字就行
            System.out.println(rs.getInt("id") + "\t" + 
                        MyUDF.evaluate(new Text(rs.getString("name"))));
        }

        // 6.釋放資源

        rs.close();
        ps.close();
        conn.close();
    }

}

hive的(ql)hql使用和基於UDF的用法;以及java對hive的遠端訪問

1>hive下建立表並匯入資料　　(資料可以是本地的,也可以是hdfs上的) 　　 >建立本地檔案 [[email protected] /]# vi student 　　1,xiaoming 　　2,xiaohong 　　3,xiaogang 　　4,tom 　　5,ti

sed和awk的用法以及區別

sed和awk sed主要處理“行問題”。 awk主要處理“列問題”。 sed實例：sed -n "2p" /file 輸出file文件中的第二行 awk實例：awk -F= ‘BEGIN{print "hello"}{print

Action 和 Func 的用法以及區別

delegate class div clas 返回 span pre console 技術分享 Action 無返回值 Func 有返回值，且最後一個參數為返回值 Action用法 public static void test(string s)

HttpServletRequest和ServletRequest的區別以及HttpServletRequest對象方法的用法

地址欄 req Language == ram 瀏覽器 har exce cte HttpServletRequest和ServletRequest都是接口 HttpServletRequest繼承自ServletRequest HttpServletRequest

Variable和get_variable的用法以及區別

沒有 constant src 分開 true iba 順序 () lse 在tensorflow中，可以使用tf.Variable來創建一個變量，也可以使用tf.get_variable來創建一個變量，但是在一個模型需要使用其他模型的變量時，tf.get_variable

@RequestBody和@ResponseBody的用法以及Stringify()的作用

首先，在專案的前後互動中json資料格式比較常用，普遍認為json格式比較簡單，易於解析如果我們在前端傳送一個ajax請求的話可以看到是用json格式向後臺傳請求引數，那麼後臺需要採用@RequestBody來處理請求的json格式資料，將json資料轉換為java物件，否則spr

C++ ofstream和ifstream詳細用法以及C語言的file用法

ofstream是從記憶體到硬碟，ifstream是從硬碟到記憶體，其實所謂的流緩衝就是記憶體空間; 　　在C++中，有一個stream這個類，所有的I/O都以這個“流”類為基礎的，包括我們要認識的檔案I/O，stream這個類有兩個重要的運算子：　　1、插入器(&

python cut和qcut的用法以及區別

from pandas import Series,DataFrame import pandas as pd import numpy as np from numpy import nan as NA from matplotlib import pyplot as pl

LocalStorage和sessionStorage的用法以及使用區別

存儲大小 clear 也不會記錄 ora 都是 local 關閉數據 1.localstorage: localStorage的生命周期是永久性的。即使關閉瀏覽器，數據也不會銷毀，存儲大小一般為5M,需要主動去銷毀，使用方法如下：

BFS和DFS詳解以及java實現(轉載)

作者： Leo-Yang 原文都先發布在作者個人部落格： http://www.leoyang.net/ 本文版權歸作者和部落格園共有，歡迎轉載，但未經作者同意必須保留此段宣告，且在文章頁面明顯位置給出原文連線，否則保留追究法律責任的權利. 前言

MySql儲存過程中傳參和不傳參以及java中呼叫程式碼

資料庫表結構 1.mysql不傳參寫儲存過程 create procedure product() -- product為儲存過程名稱 begin select * from book; end 呼叫此儲存過程為 CALL product

RecursiveTask和RecursiveAction的使用以及java 8 並行流和順序流

轉載自 https://blog.csdn.net/weixin_41404773/article/details/80733324 什麼是Fork/Join框架 Fork/Join框架是J

Fiddler基本用法以及如何對手機抓包

一、Fiddler是什麼？ ·一種Web除錯工具。 ·可以記錄所有客戶端和伺服器的http和https請求。 ·允許監視、設定斷點、修改輸入輸出資料。二、Fiddler下載三、Fiddler的工作原理 Fiddler 是以代理web伺服器的形式工作的，它

BFS和DFS詳解以及java實現

前言圖在演算法世界中的重要地位是不言而喻的，曾經看到一篇Google的工程師寫的一篇《Get that job at Google!》文章中說到面試官問的問題中幾乎有一半的問題都可以用圖的方法去解決。由此也可以看出圖確實適用範圍確實很廣。圖的表示閒話不多說，首先要

Fiddler基本用法以及如何對手機抓包以及無法連線手機的解決

一、Fiddler是什麼？　　·一種Web除錯工具。　　·可以記錄所有客戶端和伺服器的http和https請求。　　·允許監視、設定斷點、修改輸入輸出資料。二、Fiddler下載三、Fiddler的工作原理　　Fid

基於MySQL元數據的Hive的安裝和簡單測試

信息 rop msu time trying 功能條件 ans ack 引言：　Hive是一種強大的數據倉庫查詢語言，類似SQL，本文將介紹怎樣搭建Hive的開發測試環境。 1. 什麽是Hive? hive是基於Hadoop的一個數據倉庫工

html、val、attr、prop區別。this.value和$(this).val()區別以及return用法

生態所有 select 批量控制添加屬性 ext his 區別 html()： html() 方法返回或設置被選元素的內容 (inner HTML)。當使用該方法讀取多個值時，它會返回第一個匹配元素的內容。當使用該方法設置一個值時，它會覆蓋所有匹配元素的內容。取

【JS點滴】substring和substr以及slice和splice的用法和區別。

[0 相等交換 top subst char ima cas 負數那麽就由一道筆試題引入吧，已知有字符串a=”get-element-by-id”,寫一個function將其轉化成駝峰表示法”getElementById”； var a = "get-element-

JFileChooser和FileFilter的使用，以及Java RandomAccessFile用法

選擇沒有定義相關 lte inpu 概念獨立文件今天學習前輩的一個p2p下載的源代碼，其中遇見了兩個小問題，上網進行了百度，找到了答案，隨手記錄一下，以便於以後翻看。 1.首先自定義了一個文件下載的主界面，包括了創建任務、暫停任務、繼續任務、刪除任務，點擊創建任

margin和padding的用法與區別--以及bug處理方式

使用滿足左右 ron 相互一段布局方式 ont margin和padding的用法: （1）padding (margin) -left:10px; 　　　　　　　　左內 (外) 邊距（2）padding (margin) -right:10px; 　　　　　　

hive的(ql)hql使用和基於UDF的用法;以及java對hive的遠端訪問

相關推薦