選擇合適的Hadoop資料型別

阿新 • • 發佈：2019-01-26

 為了用作Mapreduce計算的value資料型別，資料型別必須實現org.apache.hadoop.io.Writable介面。Writable介面定義了當需要資料傳輸和資料儲存時，Hadoop應如何序列化和反序列化值。
 為了用作Mapreduce計算的key資料型別，資料型別必須實現org.apache.hadoop.io.WritableComparable<T>介面。除了Writable介面的功能之外，有一種WritableComparable介面更進一部定義瞭如何將這種型別的鍵相互比較，以達到排序的目的。

Hadoop的可寫介面與java的可序列化介面對比

 與統一的java本機序列的框架相比，Hadoop的基於可寫的序列框架為MapReduce程式提供了更高興，定製程度更高的序列化和資料表示。相對於java的序列化，Hadoop的可寫框架並不記錄型別名稱，每個物件期望序列化資料的所有客戶端必須直到在序列化資料中使用的型別。省略型別名稱，使序列化過程更快，結果更緊湊，同時，通過非java的客戶端可以很容易的實現隨機訪問序列化資料格式的功能。
 Hadoop基於可寫的序列化方式，也具有通過複用Writable物件來減少物件建立開銷的功能，這時java本身序列化框架不可能做到的。

hadoop提供一些基本資料型別，如Intwritable/Longwritable/Boolean/writable/FloatWritable和ByteWritable，這時他們各自的java基本上資料型別的Writable版本。可以使用這些型別作為key型別和value型別。

下面是幾種Hadoop的內建資料型別，既可以用作key型別，也可以用作value型別。

Text：儲存UTF8文字
BytesWritable：儲存一個位元組序列
VIntWritable和VLongWritable：儲存變長整型和長整型值
NullWritable：這是一個零長度的Writable型別，可以在不希望使用key或value型別的時候使用。

下列Hadoop內建的集合資料型別只能用作value型別：

ArrayWritable：儲存屬於Writable型別的值陣列。要使用ArrayWritable型別作為reduce輸入的value型別，則需要建立ArrayWritable的子類來指定儲存在其中的Writable值的型別。
TwoDArrayWritable：儲存屬於同一Writable型別的值矩陣。要使用TwoDArrayWritable型別作為reduce輸入的value型別，則需要通過建立與ArrayWritable型別相似的TwoDArrayWritable型別的子類來指定儲存的值的型別。
MapWritable：儲存鍵值對的對映。鍵和值應該是Writable資料型別。
SortedMapWritable：儲存鍵值對的有序對映。鍵應該實現writableComparable介面。

MySQL（五）---- 選擇合適的資料型別

每當建立一張資料表的時候我們就面臨著選擇什麼樣的資料型別，選多大的等等問題，很多人憑感覺選了型別估計了大小，但這麼做往往後期出錯或浪費空間，因此根據特性選擇合適的型別及大小很有必要。一、CHAR 與 VARCHAR &n

資料庫選擇合適的資料型別

char與varchar 區別一，定長和變長 char 表示定長，長度固定，varchar表示變長，即長度可變區別之二，儲存的容量不同對char來說，最多能存放的字元個數 255，和編碼無關。而varchar呢，最多能存放 65532 個字元。

8.2 第八章選擇合適的資料型別

8.3 浮點數與定點數對於小數的表示，MySQL 分為兩種方式：浮點數和定點數。浮點數包括 float（單精度）和 double（雙精度），而定點數則只有 decimal 一種表示。定點數在 MyS

選擇合適的Hadoop資料型別

為了用作Mapreduce計算的value資料型別，資料型別必須實現org.apache.hadoop.io.Writable介面。Writable介面定義了當需要資料傳輸和資料儲存時，Hadoop應如何序列化和反序列化值。為了用作Mapreduce計算的

如何選擇合適的圖表型別和使用場景

2018年11月08日 21:00:57 LuYi_WeiLin 閱讀數：8 標籤：視覺化 quick bi

Hadoop實踐（三）---Hadoop資料型別

適合Hadoop的資料型別 Hadoop使用派生於Writable介面的類作為MapReduce計算的資料型別，這些資料型別用於整個MapReduce計算流的資料吞吐過程，這個過程從讀取輸入資料開始，到傳輸map和reduce任務之間的中間資料，一直到最後寫入

Hadoop資料型別講解

序列化所謂序列化（serialization），是指將結構化物件轉化為位元組流，以便在網路上傳輸或寫到磁碟進行永久儲存。反序列化（deserialization）是指將位元組流轉回結構化物件的過程。序列化在分散式資料處理的兩大領域經常出現：程序間通訊和永

hadoop學習之HDFS（2.4）：hadoop資料型別與java資料型別的對比與轉換

前言： hadoop由各個節點構成一個叢集，分散式儲存就要考慮到資料在節點之間來回傳遞的問題。為了解決這一問題，hadoop採用了java中的序列化和反序列化概念。序列化（serialization）是指將結構化的物件轉化為位元組流，以便在網路上傳輸或者寫入到硬碟進行

hadoop資料型別以及序列化和反序列化

序列化和反序列化以及hadoop資料型別 1.什麼是序列化和反序列化序列化就是把記憶體中的物件，轉換成位元組序列（或其他資料傳輸協議）以便於儲存（持久化）和網路傳輸。反序列化就是將收到位元組序列（或其他資料傳輸協議）或者是硬碟的持久化資料，轉換成

Hadoop集群選擇合適的硬件配置

hadoop集群選擇合適的硬件配置為Hadoop集群選擇合適的硬件配置隨著Apache Hadoop的起步，雲客戶的增多面臨的首要問題就是如何為他們新的的Hadoop集群選擇合適的硬件。盡管Hadoop被設計為運行在行業標準的硬件上，提出一個理想的集群配置不想提供硬件規格列表那麽簡單。選擇硬件，為給定的負

大資料學習，如何選擇合適的開發語言

大資料快速發展的今天，很多人選擇加入大資料學習的陣營，課時從哪裡入手，如何選擇合適的開發語言來做與大資料相關的事，這個話題應該困擾了不少大資料學習的新人，在面對五花八門的「開發語言」和「分析軟體」時，自己該如何選擇？ &nbs

《高效能MySQL》筆記——MySQL建表資料型別的選擇

前段時間看了《高效能MySQL》中的選擇優化的資料型別，這裡主要是做一下筆記。首先資料選擇有幾個簡單原則：更小的通常更好。一般情況下，應該儘量使用可以正確儲存資料的最小資料型別。例如只需要存 0~200，tinyint unsigned 更好。更小的資料型別通常更快，因為它們佔

資料型別的選擇

資料型別選擇原則 1. 小儘量使用可以正確儲存資料的最小資料型別。注意：應儘早確定資料型別，不然後期改起來很麻煩。 2. 簡單整型比字元操作代價更低。用 MySQL 內建的型別（date，time，datetime）儲存日期時間。用整型儲存 IP 地址。 3

Java 知識點整理-7.StringBuffer類+氣泡排序+選擇排序+二分法+Arrays類+基本資料型別的包裝類

1、StringBuffer類概述：執行緒安全的可變字元序列，一個類似於String的字串緩衝區，但不能修改（不能像String那樣用加號與其他型別資料連線），但通過某些方法呼叫可以改變該序列的長度和內容。java.lang包下，使用時不用導包。final修飾，不能有子類。 2、StringBu

Mysql的基本使用(登陸&退出、建立&刪除&選擇資料庫、基本資料型別、建立&刪除表格等)

登入mysql資料庫 mysql -h hostname -u username -p 如何hostname是本機的話，要替換為127.0.0.1或者是localhost 例子：mysql -h localhost -uroot -p 這樣輸完之後會換行讓你輸密碼，我們也可以直接把密

MySQL資料型別選擇效能比對詳解

在關係型資料庫建表期間，我們需要考慮很多很多的事項。諸如表儲存什麼資料，列上使用的資料型別，選擇什麼樣的儲存引擎等等。本文主要介紹針對表上列使用三種不同的資料型別來進行對比，以觀察選擇不同資料型別時，對於效能造成的影響。一、建表時需要考慮的事項作用：儲存什麼資料？結構：包含什麼列，需要

mysql欄位資料型別選擇

選擇優化的資料型別 MySQL支援的資料型別非常多，選擇正確的資料型別對於獲得高效能至關重要。更小的通常更好更小的資料型別通常更快，因為它們佔用更少的磁碟、記憶體和CPU快取，並且處理時需要的CPU週期也更少。簡單就好簡單資料型別的操作通常需要更少的CPU週期。

最讓人頭疼的清洗資料過程----選擇合適的方式快速命中所需的資料

當我們解析網頁後，往往面對繁雜的原始碼而無從下手，有時候明明知道我們想要的資料就在裡面，可是應該如何把冗餘的部分去除而只保留我們想要的那一個部分呢在這裡和大家一起學習一下選擇的方法 1、正則表示式真的是無奈之舉的時候才會想到要去正則，因為它除非格式標準，否則每次搜尋都要重新的繪製pattern 在pyth

【mysql】資料型別選擇

一Mysql 資料型別選擇 1.1 Char與varchar 由於char是固定長度的，所以存取速度比varchar快。缺點是浪費儲存空間，程式需要對行尾進行處理，所以對那些長度變化不大，並且對查詢速度有較高要求的資料可以通過char來存取。當然這個也是由

Hadoop MapReduce自定義資料型別

一自定義資料型別的實現 1.繼承介面Writable,實現其方法write()和readFields(), 以便該資料能被序列化後完成網路傳輸或檔案輸入/輸出； 2.如果該資料需要作為主鍵key使用，或需要比較數值大小時，則需要實現WritalbeComparable介面,實現其方法write(),re

選擇合適的Hadoop資料型別

相關推薦