HDFS基於檔案的資料結構

阿新 • • 發佈：2018-11-14

存在原因

Hadoop處理少量大檔案時效率較高，但處理大量小檔案是效率較低，因此設計了以下兩種檔案模式容器用於將大量小檔案組織起來統一儲存。

SequenceFile檔案

檔案的基本格式。

檔案的基本格式是一種鍵值對檔案記錄。
檔案的鍵、值對所代表的類必須支援序列化及反序列化
Hadoop預定義了一些class，他們已經直接或間接實現了Writable介面(序列化介面)。例如：
- Text 等同於Java中的String
- IntWritable 等同於Java中的Int
- BooleanWritable 等同於Java中的Boolean

檔案儲存結構

在儲存結構上，SequenceFile主要由一個Header後跟多條Record組成，如圖所示：

Header主要包含了Key classname，Value classname，儲存壓縮演算法，使用者自定義元資料等資訊，此外，還包含了一些同步標識，用於快速定位到記錄的邊界。
每條Record以鍵值對的方式進行儲存，用來表示它的字元陣列可依次解析成：記錄的長度、Key的長度、Key值和Value值，並且Value值的結構取決於該記錄是否被壓縮。
同步標記位於順序檔案記錄與記錄之間，用於在讀取檔案時能夠從任意位置開始識別記錄邊界。

該檔案有兩種壓縮方式：record compression和block
- record compression通過圖中很明顯可以看出，檔案壓縮是僅壓縮值，未壓縮鍵，壓縮單條資料。
- block compression指塊壓縮，是將一連串的record組織到一起，統一壓縮成一個block，block資訊主要儲存了：塊所包含的記錄數、所包含的Key的長度、所包含的Key值的集合、所包含的Value長度，所包含的Value值的集合.如圖所示：···

檔案寫入

createWriter()靜態方法建立SequenceFile物件，並返回SequenceFile.Writer

例項
通過SequenceFile.Writer例項的append()在檔案末尾追加鍵值對。
通過呼叫close()方法關閉檔案，其實現了java.io.Closeable介面。

package chapter5;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import java.io.IOException;
import org.apache.hadoop.io.SequenceFile.Writer;

public class SequenceFileWrite {

    private static final String[] data = {
            "Hello, this is Hadoop",
            "End, this is sequenceFile write demon"
    };

    public static void main(String[] args) throws IOException {
        String output = args[0];
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(conf);
        Path path = new Path(output);
        if (fs.exists(path)) {
            fs.delete(path, true);
        }

        IntWritable key = new IntWritable();
        Text value = new Text();

        Writer write = null;
        try {
            // Hadoop權威指南第4版程式碼，該方法已過時
//            writer = SequenceFile.createWriter(fs, conf, path, key.getClass(), value.getClass());
            // 新API寫法，使用註釋掉的語法時報錯，原因未知
//            Writer.Option fileOption = Writer.file(path);
//            Writer.Option keyOption = Writer.keyClass(key.getClass());
//            Writer.Option valueOption = Writer.keyClass(value.getClass());
//            write = SequenceFile.createWriter(conf, fileOption, keyOption, valueOption);
            write = SequenceFile.createWriter(conf,Writer.file(path), Writer.keyClass(IntWritable.class), Writer.valueClass(Text.class));
            for (int i = 0; i < 100; i++) {
                key.set(100-i);
                value.set(data[i%data.length]);
                System.out.printf("[%s]\t%s\t%s\n", write.getLength(), key, value);
                write.append(key, value);
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            IOUtils.closeStream(write);
        }
    }
}
// STDOUT
[128]	100	Hello, this is Hadoop
[168]	99	End, this is sequenceFile write demon
[224]	98	Hello, this is Hadoop
[264]	97	End, this is sequenceFile write demon
[320]	96	Hello, this is Hadoop
[360]	95	End, this is sequenceFile write demon
[416]	94	Hello, this is Hadoop
[456]	93	End, this is sequenceFile write demon
[512]	92	Hello, this is Hadoop
[552]	91	End, this is sequenceFile write demon
[608]	90	Hello, this is Hadoop
[648]	89	End, this is sequenceFile write demon
[704]	88	Hello, this is Hadoop
[744]	87	End, this is sequenceFile write demon
[800]	86	Hello, this is Hadoop
---
[4680]	6	Hello, this is Hadoop
[4720]	5	End, this is sequenceFile write demon
[4776]	4	Hello, this is Hadoop
[4816]	3	End, this is sequenceFile write demon
[4872]	2	Hello, this is Hadoop
[4912]	1	End, this is sequenceFile write demon

檔案讀入

package chapter5;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.util.ReflectionUtils;

import java.io.IOException;

public class SequenceFileReader {

    public static void main(String[] args) throws IOException {
        String uri = args[0];
        Configuration conf = new Configuration();

        FileSystem fs = FileSystem.get(conf);
        SequenceFile.Reader reader = null;

        Path path = new Path(uri);

        try {
//          舊版API寫法
//          reader = new SequenceFile.Reader(fs, path, conf);
//          新版API寫法
            reader = new SequenceFile.Reader(conf, SequenceFile.Reader.file(path));
            Writable key = (Writable) ReflectionUtils.newInstance(reader.getKeyClass(), conf);
            Writable value = (Writable) ReflectionUtils.newInstance(reader.getValueClass(), conf);

            long position = reader.getPosition();

            while (reader.next(key, value)) {
                // 標記出同步點位置
                String syncSecc = reader.syncSeen() ? "*" : "-";
                System.out.printf("[%s%s]\t%s\t%s\n", position, syncSecc, key, value);
                position = reader.getPosition();
            }
        } finally {
            IOUtils.closeStream(reader);
        }
    }
}
// STDOUT
[[email protected] artifacts]$ hadoop chapter5.SequenceFileReader /zpy/bigdata/chapter5/number.seq
18/11/02 11:09:32 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library
18/11/02 11:09:32 INFO compress.CodecPool: Got brand-new decompressor [.deflate]
[128-]	100	Hello, this is Hadoop
[168-]	99	End, this is sequenceFile write demon
[224-]	98	Hello, this is Hadoop
[264-]	97	End, this is sequenceFile write demon
[320-]	96	Hello, this is Hadoop
[360-]	95	End, this is sequenceFile write demon
[416-]	94	Hello, this is Hadoop
---
[4028-]	19	End, this is sequenceFile write demon
[4084*]	18	Hello, this is Hadoop
[4144-]	17	End, this is sequenceFile write demon
[4200-]	16	Hello, this is Hadoop
[4240-]	15	End, this is sequenceFile write demon
[4296-]	14	Hello, this is Hadoop
[4336-]	13	End, this is sequenceFile write demon
[4392-]	12	Hello, this is Hadoop
[4432-]	11	End, this is sequenceFile write demon
[4488-]	10	Hello, this is Hadoop
[4528-]	9	End, this is sequenceFile write demon
[4584-]	8	Hello, this is Hadoop
[4624-]	7	End, this is sequenceFile write demon
[4680-]	6	Hello, this is Hadoop
[4720-]	5	End, this is sequenceFile write demon
[4776-]	4	Hello, this is Hadoop
[4816-]	3	End, this is sequenceFile write demon
[4872-]	2	Hello, this is Hadoop
[4912-]	1	End, this is sequenceFile write demon

命令列檢視檔案

格式：hadoop fs -text (File PATH)
eg: hadoop fs -text /zpy/bigdata/chapter5/number.seq

同步點操作

`Reader`物件

呼叫Reader的seek(long position),將指標指向檔案中指定位置。該方法給定的位置不是同步點時，呼叫next()方法會報錯。
呼叫Reader的sync(long position),將指標指向檔案中指定位置。該方法會將位置指向檔案當前位置的下一個同步點，若無下一個同步點，則指向檔案尾。

`Writer`物件

呼叫Writer的sync(),將在檔案當前位置插入一個同步點，請區別於hsync，後者用於檔案底層IO

更詳細連結

https://blog.csdn.net/qianshangding0708/article/details/47666735

HDFS基於檔案的資料結構

存在原因 Hadoop處理少量大檔案時效率較高，但處理大量小檔案是效率較低，因此設計了以下兩種檔案模式容器用於將大量小檔案組織起來統一儲存。 SequenceFile檔案檔案的基本格式。檔案的基本格式是一種鍵值對檔案記錄。檔案的鍵、值對所代表的類必須支

基於OpenCV資料結構最小二乘法擬合圓-程式碼部分

對於網上常用的擬合圓程式碼(經過修改，因為除數可能為0) /* * 參考: http://blog.csdn.net/liyuanbhu/article/details/50889951 * 通過最小二乘法來擬合圓的資訊 * pts: 所有點座標 * center: 得到

基於檔案的資料結構之SequenceFile實現

Hadoop的sequenceFile為二進位制鍵/值對提供了一個持久資料結構。它可以作為小檔案的容器。HDFS和MapReduce是針對大檔案優化的，所以通過SequenceFile型別將小檔案包裝起來，可以獲得更高效率的儲存和處理。 SequenceFile的實現程式碼： package c

Hadoop的I/O操作（壓縮、序列化、基於檔案的資料結構）

一、序列化序列化就是把結構化物件，轉換成位元組流序列或者其他資料傳輸協議以便於永久化儲存和網路傳輸。反序列化是序列化的逆過程，即將收到的位元組流序列、資料傳輸協議等，轉換成結構化的物件。Hadoop中用於多節點間程序通訊的是RPC（遠端過程呼叫）。RPC序列化格式如下：1、格

java程式設計師的大資料之路（7）：基於檔案的資料結構

SequenceFile 介紹由於日誌檔案中每一條日誌記錄是一行文字。如果想記錄二進位制型別，純文字是不合適的。這種情況下，Hadoop的SequenceFile類非常合適。SequenceFile可以作為小檔案容器。而HDFS和MapReduce是針

基於檔案的資料結構：關於MapFile

package com.lcy.hadoop.io; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apa

基於檔案的資料結構：關於SequenceFile

package com.lcy.hadoop.io; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apa

Hadoop基於檔案的資料結構及例項

基於檔案的資料結構兩種檔案格式： 1、SequenceFile 2、MapFile SequenceFile 1、SequenceFile檔案是Hadoop用來儲存二進位制形式的<key,value>對而設計的一種平面檔案(Flat

Structure Streaming和spark streaming原生API訪問HDFS檔案資料對比

此文已由作者嶽猛授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。 Structure Stream訪問方式 code examples import org.apache.spark.sql.streaming._ val df = spark.

Atittit HDFS hadoop 大資料檔案系統java使用總結目錄 1. 作業系統，進行操作 1 2. Hdfs 類似nfs ftp遠端分散式檔案服務 2 3. 啟動hdfs服務start

Atittit HDFS hadoop 大資料檔案系統java使用總結目錄 1. 作業系統，進行操作 1 2. Hdfs 類似nfs ftp遠端分散式檔案服務 2 3. 啟動hdfs服務start-dfs.cmd 2 3.1. 配置core-site

Python-資料結構與演算法（十一、字典（對映）——基於兩種不同的底層實現）

保證一週更兩篇吧，以此來督促自己好好的學習！程式碼的很多地方我都給予了詳細的解釋，幫助理解。好了，幹就完了～加油！宣告：本python資料結構與演算法是imooc上liuyubobobo老師java資料結構的python改寫，並添加了一些自己的理解和新的東西，liuyubobobo

05-看圖理解資料結構與算法系列(基於陣列的棧)

棧棧是一種線性儲存結構且運算受限的線性表，它的插入和刪除運算操作被限制在表的一端，該端稱為棧頂，而另外一端則稱為棧底。棧中的資料以後進先出(Last In First Out 即LIFO)方式進出棧。棧的實現棧的實現方式有多種方式，主要是使用不同的結構來儲存棧元素，比如使用陣列、

資料結構之查詢-基於樹的查詢法

目錄基於樹的查詢法二叉排序樹二叉排序樹的定義與描述二叉排序樹的插入與建立平衡二叉排序樹失衡二叉樹分類及調整方法基於樹的查詢法基於樹的查詢法是將待查表組織成特定樹的形式並

資料結構之查詢-基於線性表的查詢法

基於線性表的查詢法順序查詢演算法思想用所給的元素與列表的中的各個元素進行比較，若相等返回索引，否則返回錯誤資訊。假設列表長度為$n$那麼查詢第$i$個元素時需進行$n-i+1$次比較，即$C_i=n-i+1$,又假設查詢每個資料元素的概率相等，即$P_i =1/n$,則順序查詢成功的平均查詢長

資料結構實現 5.1：對映_基於樹實現（C++版）

資料結構實現 5.1：對映_基於樹實現（C++版） 1. 概念及基本框架 2. 基本操作程式實現 2.1 增加操作 2.2 刪除操作 2.3 修改操作 2.4 查詢操作 2.5 其他操作 3. 演算法複

與左側的圓括號“(”(位於“e:\大二上課程課件、作業和答案\資料結構\chapter4\sqstack\sqstack\mysqstack.h(23)”)匹配之前遇到檔案結束

錯誤原因是“某對圓括號只打了左括號而沒有右括號”，debug方法是：直接根據報錯提示：“與左側的圓括號“(”(位於“e:\大二上課程課件、作業和答案\資料結構\chapter4\sqstack\sqstack\mysqstack.h(23)”)匹配之前遇到檔案結束”，找到對應的檔案和對應的行號，這裡是mys

HashTable與HashMap的區別，資料結構，類檔案結構，原始碼分析

轉載https://www.imooc.com/article/details/id/23015 與HashMap的區別 1 HashMap是非同步的，沒有對讀寫等操作進行鎖保護，所以是執行緒不安全的，在多執行緒場景下會出現資料不一致的問題。而HashTable是同步的，所有的讀寫等操作都進

FAT16檔案系統結構扇區資料分析

FAT，英文為File Allocation Table，文件分配表。先要記住幾個概念：扇區：一般扇區為512個位元組。簇：由若干個扇區組成，是存取資料的最小單位。如果簇大小為16K，檔案大小為1位元組，那也要用一個簇來存，而且該簇不用再拿來他用。 FAT檔案系統就是專門管理這些簇的

資料結構 - 基於陣列的棧

棧Stack *棧也是一種線性資料結構 *相比陣列，棧對應的操作是陣列的子集 *只能從一端新增元素，也只能從這一端取出元素 *這一端稱為棧頂 *棧是一種後進先出的資料結構（Last in first out） *在計算機的世界裡，棧擁有著不可思議的作用

資料結構 - 基於陣列的佇列

佇列Queue 　　*佇列也是一種線性結構　　*相比於陣列，佇列對應的操作是陣列的子集　　*只能從一端（隊尾）新增元素，從另一端（隊首）取出元素　　*佇列是一種先進先出的資料結構（先到先得 First In First Out）　　　　基於陣列的佇列實現的原始碼如下：

HDFS基於檔案的資料結構

存在原因

SequenceFile檔案

檔案的基本格式。

檔案儲存結構

檔案寫入

檔案讀入

命令列檢視檔案

同步點操作

Reader物件

Writer物件

更詳細連結

相關推薦

`Reader`物件

`Writer`物件