hive中的幾種表

阿新 • • 發佈：2018-12-20

1.hive中表的型別

內部表(受控表)：當刪除內部表的時候，hdfs上的資料以及元資料都會被刪除。
外部表：當刪除外部表的時候，HDFS上的資料不會被刪除，但是元資料會被刪除。
臨時表(測試環境)：在當前會話期間記憶體在，會話結束自動消失，生命週期隨之session。
分割槽表：將一批資料分成多個目錄來儲存。
分桶表：

2.內部表 ①建立表的方式有三種：

直接建立

CREATE TABLE gfstbl( //table前沒有修飾符，說明建立的是一個內部表
  id INT,
  name STRING,
  age INT,
  gfs ARRAY<STRING>,
  address MAP<STRING,STRING>,
  info STRUCT<country:String,province:String,shi:String>
)
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY ' '  //欄位間的分隔符
    COLLECTION ITEMS TERMINATED BY ','  //集合元素之間的分隔符
    MAP KEYS TERMINATED BY ':'   //map中key和value之間的分隔符
    LINES TERMINATED BY '\n';   //行與行之間的分隔符
LOCATION "/test" //可以設定源資料的位置，若不設定預設就在Hive的工作目錄區

建立一張表和已存在的一張表的結構相同

create table gfstbl1 like gfstbl   //只會建立表結構

建立一張表和已存在的一張表的結構相同，並且還可以帶有資料

create table gfstbl2 AS SELECT id,name,gfs,address from gfstbl;  //會建立相應的表
結構，並且插入資料。查哪個欄位就會插入哪個欄位的資料。

②查看錶描述資訊

DESCRIBE [EXTENDED|FORMATTED] table_name
EXTENDED極簡的方式顯示(預設就是極簡的方式)
FORMATTED格式化方式來顯示

③插入資料的方式

    1、insert 新資料
    2、load
    3、查詢其他表資料 insert 到新表中
	模板：
	   insert into rest select count(*) from table;
	習慣寫法 from提前  減少SQL程式碼的冗餘
	   from day_hour_table
	   insert into rest 
	   select count(*) ;

④查詢表中欄位的值

欄位型別為陣列，採用欄位名[下標]來獲取。
欄位型別為map，採用欄位名[“map的key”]來獲取。
欄位型別為STRUCT，採用欄位名.STRUCT的屬性來獲取。

3.臨時表 ①建立臨時表(臨時表不支援分割槽)

create TEMPORARY table ttabc(id Int,name String)  //TEMPORARY代表這是一個臨時表。

②shell 凡是shell都遵循repl機制。 r ：read 讀 e：evaluate 計算 p：print 列印 l ：loop 迴圈 ③使用yarn命令幹掉某一個application

yarn application -kill job_1540028621068_0006  // id是在job啟動時就給出了。

④臨時表也是一個內部表，操作和內部表一樣。 4.外部表 ①建立外部表

create external table wc_external   //external代表這是一個外部表
   (word1 STRING, 
   word2 STRING) 
   ROW FORMAT DELIMITED 
   FIELDS TERMINATED BY ' ' 
   location '/test/external'; location可加可不加，不加location預設是在hive的工作目錄區

②往表中新增資料

 1、將按照wc_external表的規則 建立了一個新的檔案
	hello bj
	hello sh
	將這個問題拷貝到這個表的工作目錄區中，然後查詢這個表資料量增多
2、load data inpath "/test/external/t" into table wc_external;
	將工作目錄區中檔案再次新增到這個表中，發現數據量沒有增量
3、將檔案上傳到了hdfs的/根目錄
	load data inpath "/t" into table wc_external;
	資料量增多了，但是/t檔案被剪貼了

5.分割槽表 ①為什麼建立分割槽表？為了防止暴力掃描全表。可以提高查詢效率。 ②靜態分割槽表建立單分割槽表

create table day_table (id int, content string) 
partitioned by (dt string)  //指定分割槽
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;

操作單分割槽表

     insert單條插入的方式往分割槽表中插入資料：
	insert into day_table partition (dt = "9-26") values(1,"anb");
     load批量插入的方式往分割槽表中插入資料：
	load data local inpath "/root/ceshi" into table day_table partition (dt="9-27");
     刪除Hive分割槽表中的分割槽
	ALTER TABLE day_table DROP PARTITION (dt="9-27");

建立多分割槽表

create table day_hour_table (id int, content string) 
partitioned by (dt int,hour int)   //指定多個分割槽
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;

操作多分割槽表

載入資料：
   insert單條插入的方式往分割槽表中插入資料：
     insert into day_hour_table partition(dt=9,hour=1) values(1,"a2 bc");
     insert into day_hour_table partition(dt=9,hour=2) values(3,"a2 bc");
     insert into day_hour_table partition(dt=8,hour=1) values(3,"a2 bc");
     insert into day_hour_table partition(dt=8,hour=2) values(3,"a2 bc");
   load批量插入的方式往分割槽表中插入資料：
     load data local inpath "/root/ceshi" into table day_table partition (dt=10,hour=10);
   刪除Hive分割槽表中的分割槽
     ALTER TABLE day_table DROP PARTITION (dt=10,hour=10);

建立/新增分割槽

建立一個空分割槽：ALTER TABLE day_hour_table ADD PARTITION (dt=10000, hour=2000);
然後將資料上傳到空分割槽對應的目錄下，分割槽表中就會顯示資料
建立一個空分割槽並且將空分割槽指向資料位置：
 ALTER TABLE day_hour_table ADD PARTITION (dt=10000, hour=2000) location "/test"

往分割槽中新增資料的五種方式

   （1）insert 指定分割槽
   （2）load data 指定分割槽
   （3）查詢已有表的資料，insert到新表中
	 from day_hour_table insert into table newt partition(dt=01,hour=9898) select id,content
   （4）alter table add partition建立空分割槽，然後使用HDFS命令往空分割槽目錄中上傳資料
   （5）建立分割槽，並且指定分割槽資料的位置

③動態分割槽表動態分割槽表的概念

靜態分割槽表，一個檔案資料只能匯入到某一個分割槽中，並且分割槽是使用者指定的，這種方式
不夠靈活，業務場景比較侷限。動態分割槽可以根據資料本身的特徵自動來劃分分割槽，比如
我們可以指定按照資料中的年齡、性別來動態分割槽。使用動態分割槽表，要修改兩個配置資訊
set hive.exec.dynamic.partition=true; //開啟動態分割槽
set hive.exec.dynamic.partition.mode=nostrict; //使用非嚴格模式。嚴格模式是指必須要有一個靜態分割槽

建立動態分割槽表

建立動態分割槽表的語句與建立靜態分割槽表的語句是一模一樣的，只是在指定分割槽的時候用表中的欄位來指定。
partitioned by (sex string,age INT)

往動態分割槽表中載入資料

往動態分割槽表中載入資料不能使用 load data 。load data只是將資料上傳到HDFS指定目錄中。
我們之前使用load data往分割槽表匯入資料的時候，都是要指定partition分割槽的，這樣他才會知
道將資料上傳到HDFS的哪一個分割槽。
但是如果我們還是採用load data指定分割槽的話，那就不是動態分割槽表，還依然是靜態分割槽表
所以得采用 from insert的方式往動態分割槽表中插入資料。

④檢視分割槽數

show partitions table_name  //動態，靜態都可以檢視

6.分桶表 ①分桶表的原理

分桶表是對列值取雜湊值的方式，將不同資料放到不同檔案中儲存,一個檔案對應一個桶
由列的雜湊值除以桶的個數來決定每條資料劃分在哪個桶中
對於hive中每一個表、分割槽都可以進一步進行分桶。
好處：提高了join的效率；提高了隨機抽樣的效率。
使用分桶表要修改set hive.enforce.bucketing=true;

②建立分桶表

CREATE TABLE psnbucket( id INT, name STRING, age INT) 
CLUSTERED BY (age) INTO 4 BUCKETS  // 指定按照age的雜湊值與4取模來分桶
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

③往分桶表中插入資料

不能使用load data，只能使用insert

④抽樣

select * from psnbucket tablesample(bucket X out of Y on age);
X代表從哪個桶開始抽取資料
Y必須為該表總桶數的倍數或因子，表示步長，

hive中的幾種表

1.hive中表的型別內部表(受控表)：當刪除內部表的時候，hdfs上的資料以及元資料都會被刪除。外部表：當刪除外部表的時候，HDFS上的資料不會被刪除，但是元資料會被刪除。臨時表(測試環境)：在當前會話期間記憶體在，會話結束自動消失，生命週期隨之ses

【數據庫】Mysql中主鍵的幾種表設計組合的實際應用效果

研究開始時間 action 設計 int rand 業務主鍵 primary 同時寫在前面前前後後忙忙碌碌，度過了新工作的三個月。博客許久未新，似乎對忙碌沒有一點點防備。總結下來三個月不斷的磨礪自己，努力從獨樂樂轉變到眾樂樂，體會到不一樣的是，連辦公

【資料庫】Mysql中主鍵的幾種表設計組合的實際應用效果

寫在前面前前後後忙忙碌碌，度過了新工作的三個月。部落格許久未新，似乎對忙碌沒有一點點防備。總結下來三個月不斷的磨礪自己，努力從獨樂樂轉變到眾樂樂，體會到不一樣的是，連辦公室的新玩意都能引起莫名的興趣了，作為一隻忙碌的 “猿” 倒不知正常與否。咳咳，正題，今天要寫一篇

java 中幾種常用數據結構

初學 ble log app 使用 blog list 好的 sort Java中有幾種常用的數據結構，主要分為Collection和map兩個主要接口（接口只提供方法，並不提供實現），而程序中最終使用的數據結構是繼承自這些接口的數據結構類。一、幾個常用類的區別 1．

EntityFramework中幾種更改數據的方式

結構 tac pro partial 數據庫修改表 tle 狀態代碼首先聲明個實體類，該實體類是EntityFrameWork自動生成的，對應數據表Test結構如下 public partial class Test { public i

人臉檢測中幾種框框大小的選擇~

gravity 經濟自己位置之間實現 track 之前訓練樣本人臉檢測應用極為廣泛，內部細節也偏多，尤其是涉及到幾種類型的框，這幾種框的大小之前有著千絲萬縷的聯系，對檢測性能的好壞影響程度大小不一。本篇文章基於自己在人臉檢測方面的經驗，說說對這些框之間關系的

js中幾種實用的跨域方法原理詳解

自身標簽 cdc 返回屬性和方法插入實用封裝判斷這裏說的js跨域是指通過js在不同的域之間進行數據傳輸或通信，比如用ajax向一個不同的域請求數據，或者通過js獲取頁面中不同域的框架中(iframe)的數據。只要協議、域名、端口有任何一個不同，都被當作是不同

C#中幾種常用的集合的用法

col div tex -c 組成相同列表對象 count 集合:將一推數據類型相同的數據放入到一個容器內，該容器就是數組：內存中開辟的一連串空間。非泛型集合 ArrayList集合： ArrayList是基於數組實現的，是一個動態數組，其容量能自動增

Java中幾種常量池的區分

加載完成表結構結構 reference 嘗試 int 理解方法區 spa 轉載自：https://tangxman.github.io/2015/07/27/the-difference-of-java-string-pool/ 在java的內存分配中，經常聽到很多關

js 自己項目中幾種打開或彈出頁面的方法

顯示頁面框架方法 func open 地址 title 窗體自己項目中，幾種打開或彈出頁面的方法（部分需要特定環境下） var blnTop = false;//是否在頂層顯示 ///動態生成模態窗體（通過字符串生成） ///strModalId:模態窗體ID

Android開發中幾種有用的的日歷控件實現

顯示 lec 外觀翻頁 frame 時間 lean android平臺星期我們大家都知道，在Android平臺3.0中才新增了日歷視圖控件，可以顯示網格狀的日歷內容，那麽對於3.0以下的版本要使用日歷控件只能借助第三方，目前用的最多的是CalendarView。先簡

js中幾種異常類型

jsNaN類型：#not a numberNumber只能轉化數字字符串，該方法轉化失敗時就會產生一個NaNstr=‘10abc‘;Number(str);null類型：空,經常使用str=‘‘來代替，一般用於提前規劃一些變量或給變量賦初值，以免報錯undefined類型：變量未定義例子：<script

JAVA中幾種常用的RPC框架介紹

github 不同的 target int https love num 分布有一個 RPC是遠程過程調用的簡稱，廣泛應用在大規模分布式應用中，作用是有助於系統的垂直拆分，使系統更易拓展。Java中的RPC框架比較多，各有特色，廣泛使用的有RMI、Hessian、Du

Java 中幾種常用的線程池

需要表示 ali adf data future rate 並發 ng- Java 中幾種常用的線程池轉載： https://www.cnblogs.com/sachen/p/7401959.html 原創 2016年04月14日 23:29:01 標簽： j

SQL Server中幾種遍歷方式比較

不同 .com font size 常用分享分享圖片遊標 inf SQL遍歷解析　　在SQL的存儲過程，函數中，經常需要使用遍歷（遍歷table），其中遊標、臨時表等遍歷方法很常用。面對小數據量，這幾種遍歷方法均可行，但是面臨大數據量時，就需要擇優選擇，不同的遍歷方

C++中幾種測試程序運行時間的方法<轉>

begin html cnblogs bsp 可能 boost庫 www. rman 高精轉的地址：https://www.cnblogs.com/silentteen/p/7532855.html 1.GetTickCount()函數原理： GetTickCoun

昊天善圈講述區塊鏈技術應用開發過程中幾種常見的區塊鏈系統類型：

玩遊戲通過遊戲返利應用自定義理財區塊鏈區塊鏈寵物系統 1.區塊鏈挖礦系統：手手機挖礦遊戲，挖得多賺得多，玩法自定義2.區塊鏈積分商城：多種積分獲取方式，積分可用於商城交易3.區塊鏈貨幣系統：自行發行數字貨幣，多種獲取貨幣方式，數字貨幣交易商城，打造數字貨幣全

Thinkphp編程中幾種常見的實用技巧講解

要掌握 true 方法 ech admin 字段 status _id 同時在Thinkphp編程中集成了很多用起來非常方便的方法。對於剛接觸的編程人員來說，可謂是只要掌握並靈活運用了，那麽就可以達到事半功倍的效果了，下面就來為大家詳細的講解一下。　　1. getFie

Java中幾種常見的NPE問題

avi oar 返回對象 [] 報錯不能 alt public 1、Map下的NPE 直接上代碼： public class User { private Integer id; private String name;

javascript中幾種為false的值

var style 需要 head def viewport ont tle ole 如果JavaScript預期某個位置應該是布爾值，會將該位置上現有的值自動轉為布爾值。轉換規則是除了下面六個值被轉為false，其他值都視為true。 undefined null

hive中的幾種表

相關推薦