《Hadoop生態系統》（O'REILLY ）（一）

阿新 • • 發佈：2019-01-17

這是讀書筆記。
最近準備把基礎重新學一遍，再往大資料方向走。
正好有些書買了還沒看，這本書講的是
Hadoop的生態圈
是一本概要類的書籍，16年11月的，正好我也有個簡單瞭解。

第一章關鍵技術

這一章講的是當時的Hadoop的關鍵性的技術，都是完全整合的，其中包括分散式檔案系統HDFS、處理大資料的程式設計正規化MapReduce、資料處理的YARN、資料處理/儲存的Spark
我聽得比較多的就是前面2個和最後一個，第三個不太熟，正好在這裡大致說下每個部分作用和區別

1.1 HDFS

用途介紹的是：大容量、容錯性、可儲存非常大的資料集的廉價儲存
我的理解：超大儲存，資料是所有操作的基礎，這個技術就是基礎中的基礎技術
我的感覺：一眼就看到了，廉價，那肯定是必須掌握了。

1.2 MapReduce

用途介紹的是：一種處理大資料的程式設計正規化
我的理解：程式設計正規化？那不就是標準規範嗎。。。我看介紹還有很多，大致是告訴你一個數據的處理流程。MapReduce分為mapper和reduce兩個java程式，mapper負責把資料放進map裡面，然後reducer將map裡的資料進行分類彙總。
我的感覺：很複雜，我查了下教程也有，應該是基礎技能，畢竟是對資料進行操作的。

1.3 YARN

用途介紹的是：資料處理
我的理解：官方定義，YARN更像一個橋，讓其他的模組或者技術可以在Hadoop上執行，更像是個遮蔽異構性的中介軟體？
我的感覺：這個應該挺重要的？

1.4 Spark

用途介紹的是：資料處理/儲存
我的理解：這是彌補MapReduce在一些領域的空白，介紹說是MapReduce的完全替代品
我的感覺：這個應該也是分應用場景的，應該也挺重要的。

第一章就是這些內容，大致知道了Hadoop的幾個關鍵技術。第二章是講資料庫及資料管理。

《Hadoop生態系統》（O'REILLY ）（一）

第一章關鍵技術

1.1 HDFS

1.2 MapReduce

1.3 YARN

1.4 Spark

《Hadoop生態系統》（O'REILLY ）（一）

《Hadoop生態系統》（O'REILLY ）（三）

大資料之（4）Hadoop生態系統體系架構及基本概念

大資料之（4）Hadoop生態系統體系架構彙總

hadoop生態系統學習之路（五）hbase的簡單使用

基於hadoop生態系統的mahout推薦和聚類分析（1）

hadoop生態系統學習之路（十二）cloudera manager的簡單使用

hadoop生態系統學習之路（六）hive的簡單使用

hadoop生態系統學習之路（三）java實現上傳檔案（本地或ftp）至hdfs

Hadoop生態圈-phoenix的視圖（view）管理

來自出版商的免費電子書集合（O'Reilly/Packt/Manning/Apress/微軟）

比較Apache Hadoop生態系統中不同的文件格式和存儲引擎的性能

原生hadoop生態系統組件安裝文檔

初入Hadoop生態系統

當asp.net core偶遇docker一（模型驗證和Rabbitmq 一）

Apache Kudu： Hadoop生態系統的新成員實現對快速資料的快速分析

（小程式篇：一）mac搭建小程式本地測試伺服器

【C++】內部類（解決名字衝突問題一）

python進階（資料分析numpy庫一）

selenium點選連結進入子頁面抓取內容（新聞抓取案例一）

《Hadoop生態系統》（O'REILLY ）（一）

第一章 關鍵技術

1.1 HDFS

1.2 MapReduce

1.3 YARN

1.4 Spark

相關推薦

第一章關鍵技術