02分散式計算

阿新 • • 發佈：2022-01-04

分散式計算

定義

多個通過網路互聯的計算機都具有一定的計算能力，它們之間互相傳遞資料，實現資訊共享，協作共同完成一個處理任務

原理

分散式計算就是將計算任務分攤到大量的計算節點上，一起完成海量的計算任務

優點

稀有資源共享
通過分散式計算可以在多臺計算機上平衡計算負載
可以把程式放在最適合執行它的計算機上

ACID原則

ACID是資料庫事務正常執行的四個原則

A（atomicity）-- 原子性
C（consistency）-- 一致性
I（isolation）-- 獨立性
D（durability）-- 永續性

CAP理論

一個分散式系統最多隻能同時滿足一致性、可用性、分割槽容錯性三項中的兩項

一致性（consistency）
可用性（availability）
分割槽容錯性（partition tolerance）

BASE理論

base是指基本可用性（basically available）、軟狀態（soft state）、最終一致性（eventual consistency）

最終一致性分為：強一致性、弱一致性、最終一致性

一致性雜湊

一致性雜湊將整個雜湊值空間組織成一個虛擬的圓環

影子節點沒有提供服務的能力

分散式系統的特性

容錯性

高可擴充套件性

開放性

併發處理能力

透明性

分散式儲存系統例項 Apache Hadoop

簡介

Hadoop是由Apache基金會開發的分散式儲存與計算框架

組成

Hadoop是由兩個重要模組組成

一個是Hadoop分散式檔案系統（Hadoop Distributed File System，HDFS），可以將檔案資料分散式地儲存在叢集中的不同節點上

另一個是MapReduce系統，一個針對大量資料的分散式計算系統

HDFS

Hadoop分散式檔案系統是一個主從式的分散式檔案系統，是GFS的一種開源實現

HDFS可以利用大量廉價儲存器組成分散式儲存叢集，取代昂貴的集中式磁碟儲存陣列

HDFS叢集組成

HDFS叢集由一個NameNode和多個DataNode組成，除此之外還有用於熱備份的Secondary Name Node，防止叢集出現單點故障

NameNode是整個叢集的管理者，它並不儲存資料本身，而是負責儲存檔案系統的元檔案

DataNode是實際的資料儲存節點，負責相應NameNode建立、刪除和複製塊的命令

Secondary Name Node是NameNode的備份節點，當NameNode宕機需要重啟時，則可以利用Secondary NameNode中的資料加快NameNode的重啟恢復資料

MapReduce

MapReduce 既是Hadoop中的模組，也是一個計算模組

使用者需要自己將演算法劃分為Map和Reduce兩個階段

首先將資料劃分為小塊的資料，將資料分配到不同計算節點的Map任務中計算

然後將計算結果彙總到Reduce節點中進行合併，得出最終結果

分散式檔案儲存GFS

GFS--Google File System

GFS設計思路

將檔案劃分為若干塊（Chunk）儲存

每塊固定大小64M

通過冗餘來提高可靠性

每個資料塊至少在3個數據塊伺服器上冗餘

通過單個Master來協調資料訪問、元資料儲存

無快取

GFS架構缺點

單點故障

效能瓶頸

解決單點故障問題

採用多個（如三個）影子Master節點進行熱備份，一旦主節點損壞，立刻選舉一個新的主節點服務

解決效能瓶頸問題

儘可能減少資料存取中Master參與程度

Master不存任何資料，只有元資料

客戶端快取元資料

Master節點任務

儲存元資料

檔案系統目錄管理與加鎖

與ChunkServer進行週期性通訊

資料塊建立、複製及負載均衡

垃圾回收

刪除陳舊資料塊

GFS架構特點

採用中心伺服器模式

不快取資料

在使用者態下實現

提供專用的訪問介面

GFS容錯機制

Master容錯

三類元資料：名稱空間（目錄結構）、Chunk與檔名的對映以及Chunk副本的位置資訊

前兩類通過日誌容錯，chunk副本資訊儲存於Chunk Server， Master出現故障時可恢復

Chunk Server容錯

每個Chunk有多個儲存副本（通常為三個），分別儲存於不同的伺服器上

每個Chunk又劃分為若干個Block（64KB），每一個Block對應一個32bit的校驗碼，保證資料正確（若某個Block錯誤，則轉移至其他Chunk副本）

分散式系統

分散式儲存系統的五個子方向

結構化儲存

非結構化儲存

半結構化儲存

In-memory儲存

NewSQL

結構化儲存

傳統結構化儲存強調以下內容：

結構化的資料

強一致性

隨機訪問

非結構化儲存

非結構化儲存強調的是高可擴充套件性

分散式檔案系統

半結構化儲存

半結構化是為了解決非結構化儲存系統隨機訪問效能差的問題

鍵-值

In-memory儲存

將資料儲存在記憶體中，從而獲得讀寫的高效能

Redis、記憶體

NewSQL

分散式計算系統分類

傳統基於訊息的系統--MPI

MapReduce家族系統--Hadoop的Mahout、Spark的MLI

圖計算系統

基於狀態的系統

實時流處理系統

典型的分散式系統

網格系統

P2P系統

透明計算

區塊鏈系統

網格系統

能夠將多組織擁有和管理的計算機、網路、資料庫和科學儀器綜合協同使用的基礎設施

P2P系統

簡介

對等網路系統（Peer-To-Peer），簡稱P2P系統，即媒體及公眾所稱的“點對點系統”

P2P系統是一種應用在對等者（Peer）之間分配任務和工作負載的分散式應用架構的系統

三個性質

高度分散化

自組織性

多管理域

特點

部署低門檻

有機增長

對故障與攻擊的恢復力

資源的豐富性與多樣性

透明計算

是一種使用者無須感知計算機作業系統、中介軟體、應用程式和通訊網路的具體所在，只需根據自己的需求，通過網路從所使用的各種資源裝置中選擇並使用相應服務的計算模式

區塊鏈

簡介

區塊鏈（Blockchain）是一種去中心化、不可篡改、可追溯、多方共同維護的分散式資料庫系統

核心特徵

塊鏈結構

多獨立拷貝儲存

拜占庭容錯

02分散式計算

分散式計算定義多個通過網路互聯的計算機都具有一定的計算能力，它們之間互相傳遞資料，實現資訊共享，協作共同完成一個處理任務

Hadoop 系列（三）—— 分散式計算框架 MapReduce

一、MapReduce概述 Hadoop MapReduce 是一個分散式計算框架，用於編寫批處理應用程式。編寫好的程式可以提交到 Hadoop 叢集上用於並行處理大規模的資料集。

python分散式計算dispy的使用詳解

dispy，是用asyncoro實現的分散式平行計算框架。框架也是非常精簡，只有4個元件，在其原始碼資料夾下可以找到：

02 . 分散式儲存之FastDFS 高可用叢集部署

單節點部署和原理請看上一篇文章 https://www.cnblogs.com/you-men/p/12863555.html 環境 [Fastdfs-Server]

2.2.10 hadoop體系之離線計算-mapreduce分散式計算-MapReduce執行機制總結

目錄 1.總的圖解（❤❤❤最重要❤❤❤） Map階段總結：（重要） 3.Reduce階段 reduce階段總結（重要）

python 鏈式計算框架_Python的分散式計算框架——Dask排程器簡介

技術標籤：python 鏈式計算框架 Dask是Python的分散式計算框架，它支援分散式的DataFrame，也就是pandas的DataFrame，二者介面完美相容，但Dask是分散式計算的框架，可以支援記憶體無法裝載的資料，進行計算，它

tensorflow的分散式計算

技術標籤：深度學習python深度學習tensorflow gRPC(google remote producer call)框架，一種通訊方式，遠端過程呼叫，對於底層協議的一個封裝，解決一些傳輸錯誤的問題，同步的問題。

平行計算與分散式計算區別與聯絡

平行計算與分散式計算區別與聯絡平行計算、分散式計算以及網格計算和雲端計算都是屬於高效能運算（HPC）的範疇，主要目的在於對大資料的分析與處理，但它們卻存在很多差異。我們需要了解兩者的原理、特點和運用

08 分散式計算MapReduce--詞頻統計

import re import collections def count_word(path): result={} with open(path) as file_process: texts = file_process.read()

並行與分散式計算複習要點

概念計算機架構 SISD Single instruction stream Single Data stream 單指令單資料，序列計算機

分散式計算，WCF+JSON+實體物件與WebService+DataSet效率大比拼

最近做公司專案，我們要整合所有業務系統的客戶資料，各業務系統的資料庫有的Oracle，有的是SQLSERVER，而且表結構也不相同，如何整合不同系統之間的客戶資料成為一個令人頭痛的難題！

分散式計算MapReduce究竟是怎麼一回事？

前言如果要對檔案中的內容進行統計，大家覺得怎麼做呢？一般的思路都是將不同地方的檔案資料讀取到記憶體中，最後集中進行統計。如果資料量少還好，但是面對海量資料、大資料的場景這樣真的合適嗎？不合適的話，那有

雲端計算課程實驗之安裝Hadoop及配置偽分散式模式的Hadoop

一．實驗目的 1. 掌握Linux虛擬機器器的安裝方法。 2. 掌握Hadoop的偽分散式安裝方法。

02、使用flink計算kafka消費訊息排行榜

1.安裝 brew install kafka 2.出現日誌 fangdada@fangdadadeMacBook-Pro ~ % brew install kafka Updating Homebrew...

微軟分散式雲端計算框架Orleans(2)：容災與叢集(1)

閱讀目錄叢集是什麼？容災是什麼？容災和叢集的關係？搭建Orleans叢集 Next 交流方式

微軟分散式雲端計算框架Orleans(1)：Hello World

閱讀目錄什麼是Orleans？是否可靠？案例有哪些？基於Orleans的應用部署圖核心角色

極客時間分散式資料庫筆記02

10 | 原子性：如何打破事務高延遲的魔咒？並行執行的過程是這樣的。準備階段的操作，在 CockroachDB 中被稱為意向寫。這個並行執行就是在執行意向寫的同時，就寫入事務標誌，當然這個時候不

CSharpFlink分散式實時計算，OutOfMemoryException異常，你意想不到的原因。

目錄一、測試過程及問題二、問題排查及分析過程三、問題分析及解決過程四、問題解決初步結果

[開源]CSharpFlink（NET 5.0開發）分散式實時計算框架，PC機10萬資料點秒級計算測試說明

github地址：https://github.com/wxzz/CSharpFlinkgitee地址：https://gitee.com/wxzz/CSharpFlink 參考：[開源地址] 放棄Flink，.NET5.0開發CSharpFlink，簡要設計、部署及二次開發說明。

分散式物聯網邊緣計算服務設計與實現

1 引言 1.1 課題的研究背景和意義到2020年，全球聯網的裝置已超過200億臺，隨著IPv6主幹網建設和5G行動網路的部署，將有更多的物聯網裝置之間連線到網際網路。雲端需要處理越來越多的邊緣端裝置資料，同時邊緣端裝置

02分散式計算

分散式計算

定義

原理

優點

ACID原則

CAP理論

BASE理論

一致性雜湊

分散式系統的特性

分散式儲存系統例項 Apache Hadoop

簡介

組成

HDFS

HDFS叢集組成

MapReduce

分散式檔案儲存GFS

GFS設計思路

GFS架構缺點

解決單點故障問題

解決效能瓶頸問題

Master節點任務

GFS架構特點

GFS容錯機制

Master容錯

Chunk Server容錯

分散式系統

分散式儲存系統的五個子方向

結構化儲存

非結構化儲存

半結構化儲存

In-memory儲存

NewSQL

分散式計算系統分類

典型的分散式系統

網格系統

P2P系統

透明計算

區塊鏈

相關推薦