《Hadoop生態系統》（O'REILLY ）（三）

阿新 • • 發佈：2019-02-18

第一章，關鍵技術
第二章，資料相關的操作，儲存、管理

第三章序列化

序列化就是為了將資料更好方便的進行移動，畢竟資料可能有很多方面，很多點，如果一直是保持格式傳遞資料，可能會浪費大量資源，所以這裡就序列化，把他變成一串更好傳遞的資訊，傳送到頭再進行反序列化，把他還原。
這裡選擇序列化格式需要考慮到的幾個方面有：
資料量：資料佔用的記憶體或磁碟的空間大小
讀寫速度：計算機讀寫需要的時間
可讀性：在沒有外界幫助下，是否可以理解序列化後的資料？
易用性：序列化這個操作的難易程度，是否需要額外工具

3.1 Avro

用途介紹的是：資料序列化
我的理解：這應該是個很好用的工具吧，而且有執行時組裝和schema驅動的兩個特性，很不錯啊，算是高效的
我的感覺：我，見識淺薄，學到了

3.2 JSON

用途介紹的是：資料描述和傳遞
我的理解：經常用，不多說
我的感覺：真的太感謝了，要不這一章我知道的又是0蛋。

3.3 Protocol Buffers(protobuf)

用途介紹的是：資料序列化
我的理解：這和Avro不同是應用場景上，在靈活性和效能之間做出權衡，它的目的是快速、簡單以及精簡，所以它支援的程式語言和複雜的資料型別更少。而且是編譯時組裝，不是執行時組裝。
我的感覺：序列化我接觸的少，沒用過，想做個demo試下

3.4 Parquet

用途介紹的是：檔案格式
我的理解：用它給定的方式儲存資料，柱狀的資料儲存格式，可以很好表現資料結構化，但是複雜，不太好運，但是很多工具支援
我的感覺：瞭解下就行了吧

這一章大致就是這些內容，第四章就是管理與監控啦。

《Hadoop生態系統》（O'REILLY ）（三）

第三章序列化

3.1 Avro

3.2 JSON

3.3 Protocol Buffers(protobuf)

3.4 Parquet

《Hadoop生態系統》（O'REILLY ）（一）

《Hadoop生態系統》（O'REILLY ）（三）

大資料之（4）Hadoop生態系統體系架構及基本概念

大資料之（4）Hadoop生態系統體系架構彙總

hadoop生態系統學習之路（五）hbase的簡單使用

基於hadoop生態系統的mahout推薦和聚類分析（1）

hadoop生態系統學習之路（十二）cloudera manager的簡單使用

hadoop生態系統學習之路（六）hive的簡單使用

hadoop生態系統學習之路（三）java實現上傳檔案（本地或ftp）至hdfs

Hadoop生態圈-phoenix的視圖（view）管理

來自出版商的免費電子書集合（O'Reilly/Packt/Manning/Apress/微軟）

比較Apache Hadoop生態系統中不同的文件格式和存儲引擎的性能

自定義統一api返回json格式（app後臺框架搭建三）

Linux學習（二十九）iptables(三）nat表的應用

原生hadoop生態系統組件安裝文檔

初入Hadoop生態系統

當asp.net core偶遇docker一（模型驗證和Rabbitmq 三）

Apache Kudu： Hadoop生態系統的新成員實現對快速資料的快速分析

（IO流類示例三）BufferedOutputStream、BufferedInputStream、DataOutputStream、DataInputStream

一步一步學習大資料：Hadoop 生態系統與場景

《Hadoop生態系統》（O'REILLY ）（三）

第三章 序列化

3.1 Avro

3.2 JSON

3.3 Protocol Buffers(protobuf)

3.4 Parquet

相關推薦

第三章序列化