（6）hadoop學習——hive的檔案儲存和基本資料型別

阿新 • • 發佈：2019-02-17

上一篇介紹了hive的架構，以及hive語句執行的過程。

這篇介紹hive的檔案儲存和基本資料型別。

Hive是hdfs上的資料倉庫，而hdfs上存放的都是檔案，所以hive中的表可以理解為對hdfs上檔案的對映。

看完下面的介紹，相信你能很清楚的理解：“hive中的表就是hdfs的檔案”這句話。

一，hive的檔案儲存

預設hive倉庫的路徑為/user/hive/warehouse/database.db/

使用hadoop dfs –ls /user/hive/warehouse/database.db/ 命令，可以檢視該資料倉庫下所有的表：

第一列為許可權，第二列是使用者，第三列使用者組，第四列大小（此處不顯示，需要再進一層目錄），第五列為建立時間，第六列為hdfs上具體目錄。

hive庫中每個表都會在/user/hive/warehouse/database.db/下有相應目錄。

找個表進去看：

可以看到，這時第四列有大小了。第一行是標識位，另外幾行是hive自動把表分成了幾份檔案。如果將其中一個part刪掉，相應的該表資料量會減少。

如果把其中一個part再load一份，相應的表資料又會增加。（可以先把檔案get到本地，再put進去，或者建一個備份表，把備份表的檔案移動過去或者使用load命令）

注：如果相同檔案，hive會自動給檔案命名為copy。

所以如果你不小心把hdfs上相應的表文件全部刪掉了，就相當於在hive中執行了truncate table操作。

2、Hive建表語句：

CREATE TABLE IF NOT EXISTS table_name
(
 company_name   String comment '公司名稱',
 company_id     String comment '公司ID'
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY'\t'
LINES TERMINATED BY '\n';
stored as textfile;

最後幾句分別代表，指定列分隔符為製表符，行分隔符為\n，並且該表文件在hdfs中儲存格式為text格式。

3、load命令

可以直接將linux本地檔案load到hive表中，只要保證檔案型別、列分隔符和行分隔符與建表時指定的一致。

具體語句：

load data local inpath '檔名' into table tablename;

假設檔案不在本地，則不需要local關鍵字。

4、hive的基本資料型別

資料型別	所佔位元組	開始支援版本
TINYINT	1byte
SMALLINT	2byte
INT	4byte
BIGINT	8byte
BOOLEAN
FLOAT	4byte單精度
DOUBLE	8byte雙精度
STRING
BINARY	從Hive0.8.0開始支援
TIMESTAMP	從Hive0.8.0開始支援
DECIMAL	從Hive0.11.0開始支援
CHAR	從Hive0.13.0開始支援
VARCHAR	從Hive0.12.0開始支援
DATE	從Hive0.12.0開始支援

下一篇具體介紹複雜型別的使用。

（6）hadoop學習——hive的檔案儲存和基本資料型別

上一篇介紹了hive的架構，以及hive語句執行的過程。這篇介紹hive的檔案儲存和基本資料型別。 Hive是hdfs上的資料倉庫，而hdfs上存放的都是檔案，所以hive中的表可以理解為對hdf

（JavaSE）二、常量、變數、基本資料型別

常量：程式中固定不變化的值1.常量的分類：（1）字面量常量：整數常量：1、2、3、4；小數常量：3.14、6.12 布林常量：true、false 等等.....

C++菜鳥學習筆記系列（6）——簡單標頭檔案的編寫

C++菜鳥學習筆記系列（6） ——簡單標頭檔案的編寫我們在上一篇部落格 C++菜鳥學習筆記系列（5）中已經敘述了一些關於在C++中建立自己的資料型別的一些方法，但是隨之而來的一個問題是我們在建立了一個自定義類之後經常還要在其他的檔案中使用同樣的類，這時候我們可

Hadoop學習之路（五）Hadoop集群搭建模式和各模式問題

數據場景模式問題沒有問題：重裝故障 style 分布式集群的通用問題當前的HDFS和YARN都是一主多從的分布式架構，主從節點---管理者和工作者問題：如果主節點或是管理者宕機了。會出現什麽問題？群龍無首，整個集群不可用。所以在一主多從的架構中都會

《Linux學習並不難》Linux常用操作命令（6）：uname命令顯示計算機和系統相關信息

Linux8.6 《Linux學習並不難》Linux常用操作命令（6）：uname命令顯示計算機和系統相關信息使用uname命令可以顯示計算機以及操作系統的相關信息，比如計算機硬件架構、內核發行號、操作系統名稱、計算機主機名等。命令語法： uname [選項] 命令中各選項的

（6）Spring學習記錄---Spring_bean（bean之間的關係）

繼承bean的配置 xml配置 <!-- 抽象bean：通過繼承bean，父類必須是個抽象bean，配置abstract = true。這樣的bean不能被例項化，只能用來繼承配置。若一個bean的class屬性沒有被指定，該bean必須是一個抽象bean

wxWidgets初學者導引（6）——wxWidgets學習材料清單

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Ocelot簡易教程（六）之重寫配置檔案儲存方式並優化響應資料

本來這篇文章在昨天晚上就能釋出的，悲劇的是寫了兩三千字的文章居然沒儲存，結果我懵逼了。今天重新來寫這篇文章。今天我們就一起來探討下如何重寫Ocelot配置檔案的儲存方式以及獲取方式。很多人都說配置檔案的配置很繁瑣，如果儲存在資料庫就方便很多，可以通過自定義UI介面在後臺進行路由的配置，然後通過呼叫Adm

（五）hadoop路徑讀取檔案的萬用字元

一、萬用字元萬用字元註解 * 代表0到多個字元 ? 代表單一字元 [ ab ] 代表字元型別，匹配{a,b}中的一個字元 [ ^ab ]

nodejs（6）express學習

png 小明 http sendfile turn 友好分享圖片 htm res 1.簡單認識express express:：一個快速的網站開發框架，封裝了原生的http模塊，用起來更方便；API更人性化特點基於Node.js平臺之上，進一步封裝了 http 模

python學習（6）：python爬蟲之requests和BeautifulSoup的使用

前言： Requests庫跟urllib庫的作用相似，都是根據http協議操作各種訊息和頁面。都說Requests庫比urllib庫好用，我也沒有體會到好在哪兒。但是，urllib庫有一點不爽的

python函數（6）：內置函數和匿名函數

a20 *args -s 執行 code str 思維導圖 inpu 其他我們學了這麽多關於函數的知識基本都是自己定義自己使用，那麽我們之前用的一些函數並不是我們自己定義的比如說print()，len()，type()等等，它們是哪來的呢？一、內置函數由pytho

Exchange 2016與國內版O365混合部署（6）：混合後的操作和驗證

分享圖片 In 報告 mailbox inf 通訊錄 png 完成後動手雲端和本地統一的通訊錄： AAD Connect 目錄同步後，登錄O365管理員界面查看用戶，可以看到本地的兩個用戶已經同步上來了，同步類型顯示已與AD同步。登錄一個雲端用戶的郵箱，在收件人處輸

Linux（RadHat）基礎學習—延時任務和定時任務

str 命令一次 vim oot 每天指令2 conf 回車 1.系統延時任務 1.at命令 at命令發起的延時任務都時一次性的 at + time[回車]指令1[回車]指令2[回車]...[回車]按ctrl+d發起動作例子1： [root@xyz ~]# at 11

大資料之（4）Hadoop生態系統體系架構及基本概念

一、基本概念機架：HDFS叢集，由分佈在多個機架上的大量DataNode組成，不同機架之間節點通過交換機通訊，HDFS通過機架感知策略，使NameNode能夠確定每個DataNode所屬的機架ID，使用副本存放策略，來改進資料的可靠性、可用性和網路頻寬的利用率。資料塊(blo

Java基礎鞏固（四）-流(Stream)、檔案(File)和IO

Java流(Stream)、檔案(File)和IO Java.io 包幾乎包含了所有操作輸入、輸出需要的類。所有這些流類代表了輸入源和輸出目標。 Java.io 包中的流支援很多種格式，比如：基本型別、物件、本地化字符集等等。一個流可以理解為一個數據的序列。輸入流表示從一個源讀取資

（九）MapReduce自定義檔案讀取和輸出元件

作用自定義檔案讀取讀取檔案時，預設是使用讀取器 LineRecoredReader<行首偏移量，每行內容>，每讀取一次，把key和value傳給開發者開發的Mapper元件。現在自定義檔案讀取器，可以自定義讀取檔案的方法，這樣就可以調整傳遞給Mapper元件的

（6）Mat物件的一些函式和方法的使用

首先是基本的程式碼整理 1 #include<iostream> 2 #include<opencv.hpp> 3 4 using namespace std; 5 using namespace cv; 6 int main() 7 { 8 Mat

dockerfile相關（6）：Dockerfile的書寫規則和指令的使用方法

Dockfile是一種被Docker程式解釋的指令碼，Dockerfile由一條一條的指令組成，每條指令對應Linux下面的一條命令。Docker程式將這些Dockerfile指令翻譯真正的Linux命令。Dockerfile有自己書寫格式和支援的命令，Dock

C#中操作Word（2）—— 新建、開啟、儲存和關閉文件

本文中主要介紹C#中對word文件進行新建、開啟、儲存、關閉的方法。在本次試驗之前，先佈置試驗環境。首先，先新建一個winform的工程WordTest：然後，在介面中新增一個按鈕，按鈕文字就叫做“測試”：在按鈕的點選事

（6）hadoop學習——hive的檔案儲存和基本資料型別

相關推薦