《真女神轉生5》魔王城三樓後半走法參考
阿新 • • 發佈:2021-11-20
Hadoop 是什麼
Hadoop 是一個提供分散式儲存和計算的開源軟體框架,它具有無共享、高可用(HA)、彈性可擴充套件的特點,非常適合處理海量數量。
- Hadoop 是一個開源軟體框架
- Hadoop 適合處理大規模資料
- Hadoop 被部署在一個可擴充套件的叢集伺服器上
Hadoop 三大核心元件
- HDFS(分散式檔案系統) -—— 實現將檔案分散式儲存在叢集伺服器上
- MAPREDUCE(分散式運算程式設計框架) —— 實現在叢集伺服器上分散式並行運算
- YARN(分散式資源排程系統) —— 幫使用者排程大量的 MapReduce 程式,併合理分配運算資源(CPU和記憶體)
Hadoop 優點
-
高可靠性
Hadoop 維護儲存多個數據副本,增加資料冗餘,避免資料丟失
-
高擴充套件性
Hadoop 叢集可以方便地擴充套件更多的叢集節點
-
高效性
Hadoop 能夠在叢集節點之間動態地移動資料,並保證各個節點資料的動態平衡,以並行的方式工作,處理速度非常快
-
高容錯性
Hadoop 維護儲存多個數據副本,並且能夠自動將失敗的任務重新分配
-
低成本
Hadoop 是開源框架,專案的軟體成本會大大降低。 Hadoop 使用 Java 語言編寫,可以跨平臺執行
Hadoop 生態圈
Hadoop 生態圈是指圍繞 Hadoop 軟體框架為核心而出現的越來越多的相關軟體框架,這些軟體框架和 Hadoop 框架一起構成了一個生機勃勃的 Hadoop 生態圈。在特定場景下,Hadoop 有時也指代 Hadoop 生態圈。
Hadoop 生態圈的架構圖
- Hadoop Common:Hadoop 體系最底層的一個模組,是其他模組的基礎設施
- HDFS:Hadoop 分散式檔案系統,是 Hadoop 的基石
- YARN:另一種資源協調器,是統一資源管理和排程平臺
- MapReduce:是一種程式設計模型,非常適合進行分散式計算
- Spark:新一代計算框架,和 MapReduce 相比效能大幅度提升
- HBase:是一個分散式的、面向列族的資料庫(底層依賴 HDFS)
- Hive:是一個基於 Hadoop 的資料倉庫工具(SQL 語句)
- Pig:與Hive 類似,也是對大型資料集進行分析和評估的工具
- Impala:與 Hive 類似,可以對儲存在 HDFS、HBase的海量資料提交互動式 SQL 查詢的工具
- Mahout:是一個機器學習和資料探勘庫,可以實現經典的機器學習演算法
- Flume:是一個高可用、高可靠、分散式的海量日誌採集框架
- Sqoop:是一個關係型資料庫與 Hadoop 之間進行資料相互轉換的工具
- Kafka:是一種高吞吐量的分散式釋出/訂閱訊息系統
大資料處理平臺及核心技術
Hadoop 與雲端計算
什麼是雲端計算
雲端計算是一種可以通過網路方便地接入共享資源池、按需獲取計算資源(如網路、伺服器、儲存、應用、服務等)的服務模型。
之所以稱之為”雲“,是因為雲端計算在某些地方和現實中的雲非常符合,雲的規模可以動態伸縮,邊界模糊,飄忽不定,無法確定具體位置,但它確實存在於某處。
雲端計算的特點
- 按需提供服務(如租用雲伺服器,使用者可以按需申請配置,如CPU 核數、記憶體大小等)
- 寬頻網路訪問(使用者可以利用各種終端裝置隨時隨地通過網際網路訪問雲端計算服務)
- 資源池化(資源以共享資源池的方式統一管理,利用虛擬化技術將資源分享給不同使用者)
- 高可伸縮性(服務的規模可快速伸縮,如雲盤擴容)
- 可量化的服務(可以通過監控軟體監控使用者的使用情況,根據資源的使用情況對服務計費,如雲盤的流量)
- 大規模(如 google 雲端計算中心具有 100 多萬臺伺服器)
雲端計算的型別
雲端計算按照服務型別大致分為3類
-
基礎設施即服務(IaaS):提供使用者硬體裝置(雲伺服器)
-
平臺即服務(PaaS):提供使用者應用程式的應用環境(不需要維護伺服器,只需上傳應用程式即可)
-
軟體即服務(SaaS):提供使用者應用程式(雲盤、雲筆記)
國內雲端計算技術走在前列的有華為公司、阿里巴巴集團、百度等,主要以網際網路企業巨頭和系統整合提供商為主