hadoop SequenceFile 檔案寫入及各式分析

阿新 • • 發佈：2020-10-13

hadoopSequenceFile 是一個由二進位制形式key/value的位元組流組成的儲存檔案,SequenceFile可壓縮可切分，非常適合hadoop檔案儲存特性,SequenceFile的寫入由SequenceFile.Writer來實現,根據壓縮型別SequenceFile.Writer又派生出兩個子類SequenceFile.BlockCompressWriter和SequenceFile.RecordCompressWriter,壓縮方式由SequenceFile類的內部列舉類CompressionType來表示，定義了三種方式
不採用壓縮:
CompressionType.NONE

記錄級別的壓縮:
CompressionType.RECORD
塊級別的壓縮:
CompressionType.BLOCK
使用時可以通過引數:io.seqfile.compression.type=[NONE|RECORD|BLOCK]來指定具體的壓縮方式.

寫入SequenceFile時通過建立一個SequenceFile.Writer來實現SequenceFile.Writer writer = SequenceFile.createWriter然後呼叫writer.append(key, value);方法進行資料寫入,根據指定的壓縮方式不同,寫入時SequenceFile組織內部結構也有所不同.

SequenceFile Header在三種壓縮方式都是相同的,在建立SequenceFile.Writer物件時在建構函式中依次呼叫

initializeFileHeader();
writeFileHeader();
finalizeFileHeader();

來完成檔案頭的寫入.
SequenceFile檔案頭格式如下:

SequenceFile 內容,根據指定的壓縮方式不同,組織結構也有所不同,當壓縮方式指定為CompressionType.NONE,CompressionType.RECORD時，檔案內容由同步標記+RECODE 組成,當壓縮方式指定為CompressionType.BLOCK時，檔案內容由同步標記+BLOCK 組成

同步標記+RECODE:

輸出流會維護一個上次插入同步點時的記錄位置(lastSyncPos,初始為0),每次append(key, value)時都會檢查當前輸出流pos與上次同步點之間的距離是否大於等於SYNC_INTERVAL，如果是，就會插入一個同步點(sync)
CompressionType.NONE時記錄資訊不壓縮
CompressionType.RECORD時記錄資訊壓縮(單條記錄壓縮)

同步標記+BLOCK:

BlockCompressWriter內部維護keyBuffer,valBuffer,每次append(key, value)時會把key和value物件序列化到keyBuffer和valBuffer, 並判斷keyBuffer和valBuffer相加後的size是否大於等於compressionBlockSize, 如果是則插入一個同步點，並刷出資料流成一個block.
每個block與block之間都會有一個同步點(sync)
一個block內會有多條記錄組成,壓縮是作用在block之上的，比RECODE方式能獲得更好的壓縮比
compressionBlockSize可以通過io.seqfile.compress.blocksize=size引數指定，預設值是1000000

hadoop SequenceFile 檔案寫入及各式分析

hadoop SequenceFile 檔案寫入及各式分析

pandas讀取csv檔案提示不存在的解決方法及原因分析

一種分析HDFS檔案變化及小檔案分佈情況的方法

記-Golang日誌檔案讀取及寫入操作

Lua獲取指定檔案指定行的內容及向指定檔案寫入內容

iOS Crash檔案獲取及符號化

深入理解Go-goroutine的實現及Scheduler分析

MySQL多表聯合查詢語句的編寫及效率分析、優化

網站後門檔案（Webshell）分析筆記

日誌檔案寫入失敗（permission denied）

@Import、ImportSelector註解使用及原始碼分析

Java的優先佇列PriorityQueue原理及例項分析

Windows環境下的MYSQL5.7配置檔案定點陣圖文分析

MySQL主從延遲現象及原理分析詳解

Python3實現將本地JSON大資料檔案寫入MySQL資料庫的方法

mysql 無法聯接常見故障及原因分析

Python開啟檔案、檔案讀寫操作、with方式、檔案常用函式例項分析

python配置檔案寫入過程詳解

Python3 tkinter 實現檔案讀取及儲存功能

Laravel5.1 框架檔案管理操作例項分析

hadoop SequenceFile 檔案寫入及各式分析

相關推薦