Hadoop生態系統:Hadoop學習框架
阿新 • • 發佈:2018-12-18
關鍵技術
HDFS | 完全整合,高 | 大容量、容錯性、可儲存非常大的資料集的廉價儲存 |
---|---|---|
MapReduce | 完全整合,高 | 一種處理大資料的程式設計正規化 |
YARN | 完全整合,中 | 資料處理 |
Spark | 完全整合,高 | 資料處理/儲存 |
資料庫及資料管理
Cassandra | API相容,高 | 鍵值儲存 |
---|---|---|
HBase | 完全整合,高 | 列族資料庫 |
Accumulo | 完全整合,高 | 基於cell-level安全的名-值資料庫 |
Memcached | 不整合,中 | 在記憶體上快取 |
Blur | 完全整合,中 | 文件倉庫 |
Solr | API相容,高 | 文件倉庫 |
MongoDB | API相容,高 | JSON面向文件型資料庫 |
Hive | 完全整合,高 | 資料互動 |
Spark SQL | API相容,高 | SQL訪問Hadoop上的資料 |
Graph | 完全整合,高 | 圖表資料庫 |
序列化
Avro | API相容,中 | 資料序列化 |
---|---|---|
JSON | 不整合,中 | 資料描述和傳遞 |
Protocol Buffers | API整合,中 | 資料序列化 |
Parquet | API整合,中 | 檔案格式 |
管理與監控
Ambari | 完全整合,高 | 配置、監視和管理Hadoop叢集 |
---|---|---|
HCatalog | 完全整合,高 | 資料抽象層 |
Nagios | 不整合,高 | IT基礎設施監控 |
Puppet | API相容,高 | 節點管理 |
Chef | API相容,高 | 節點管理 |
ZooKeeper | API相容,中 | 協調 |
Oozie | 完全整合,高 | 一個管理複雜的Hadoop多部件工作的工作流排程 |
Ganglia | API相容,中 | 監視 |
分析與輔助
Pig | 完全整合,高 | 處理資料的高級別資料流語言 |
---|---|---|
Hadoop Streaming | 完全整合,中 | 使用Java外的其他語言來編寫MapReduce程式碼 |
Mahout | API相容,高 | 機器學習和資料分析 |
MLLib | 完全整合,高 | Spark的機器學習工具 |
Hadoop影象處理介面(HIPI) | API相容,中 | 影象處理 |
SpatialHadoop | API相容,高 | 空間分析 |
資料傳輸
Sqoop | 完全整合,高 | 在HDFS與關係資料庫之間傳遞資料 |
---|---|---|
Flume | 完全整合,中 | 資料收集和聚合,尤其針對日誌資料 |
DistCp | 完全整合,低 | 在Hadoop叢集之間移動資料 |
Storm | API相容,高 | 流攝取 |
安全、訪問控制和審計
Sentry | API相容,高 | 為Hadoop提供一個基礎級授權 |
---|---|---|
Kerberos | API相容,高 | 安全認證 |
Knox | 完全整合,中 | 安全閘道器 |
雲端計算和虛擬化
Serengeti | 未整合,中 | Hadoop虛擬化 |
---|---|---|
Docker | 未整合,高 | 執行應用程式的容器,也包括Hadoop節點 |
Whirr | API相容,低 | 配置叢集 |