Greenplum+Hadoop學習筆記-Greenplum概述及架構

阿新 • • 發佈：2019-01-21

0.寫在前面:

0.1. 此筆記是參考《Greenplum企業應用實戰》、《PostgreSQL8.2.3 中文文件》和《Getting Started with Greenplum for Big Data Analytics》整理；

0.2. 《Greenplum企業應用實戰》購買地址：【京東商城】【噹噹網】

0.3.參考網頁（持續更新）

1. Greenplum概述及架構

1.1. 什麼是Greenplum

1) 為全球大型企業使用者提供新型企業級資料倉庫(EDW)、企業級資料雲(EDC)和商務智慧(BI)提供解決方案和諮詢服務，專注於OLAP系統資料引擎開發；

2) 海量並行處理(Massively Parallel Processing) DBMS:

Greenplum的架構採用了MPP(大規模並行處理)，在 MPP 系統中，每個 SMP節點也可以執行自己的作業系統、資料庫等。換言之，每個節點內的 CPU 不能訪問另一個節點的記憶體。節點之間的資訊互動是通過節點網際網路絡實現的，這個過程一般稱為資料重分配(Data Redistribution) 。

SMP（SymmetricMulti-Processing），對稱多處理結構的簡稱，是指在一個計算機上彙集了一組處理器(多CPU),各CPU之間共享記憶體子系統以及匯流排結構。在這種技術的支援下，一個伺服器系統可以同時執行多個處理器，並共享記憶體和其他的主機資源。傳統的ORACLE和DB2均是此種類型，ORACLE RAC 是半共享狀態；

與傳統的SMP架構明顯不同，通常情況下，MPP系統因為要在不同處理單元之間傳送資訊，所以它的效率要比SMP要差一點，但是這也不是絕對的，因為 MPP系統不共享資源，因此對它而言，資源比SMP要多，當需要處理的事務達到一定規模時，MPP的效率要比SMP好。這就是看通訊時間佔用計算時間的比例而定，如果通訊時間比較多，那MPP系統就不佔優勢了，相反，如果通訊時間比較少，那MPP系統可以充分發揮資源的優勢，達到高效率。

3) 基於PostgreSQL 8.2開源版本，具有相同的客戶端功能，增加支援並行處理的技術，增加支援資料倉庫和BI的特性；

4) 外部表(external tables)/並行載入(parallel loading)：外部表是指資料庫可以直接使用作業系統中的資料檔案，在Greenplum 4.2版本中支援對外部表的讀寫操作；

5) 資源管理：基於PostgreSQL增加了並行度的處理；

6) 查詢優化器增強(query optimizer enhancements)：增加對分散式的支援，空間的回收和分析，不需要進行多方面的調優。

1.2. Greenplum 體系架構

圖一

Greenplum是一種基於ProstgreSQL的分散式資料庫，其採用Shared-Nothing架構、主機、作業系統、記憶體、儲存都是自我控制的，不存在共享。

補充：SharedDisk與Shared Nothing介紹

圖二

圖三

比較事項	概述	優點	缺點	使用場景
Shared Disk	如圖二所示，所有節點共享一份資料	只要有一個節點就可以訪問所有資料	記憶體融合限制水平擴充套件能力	Oracle RAC，24*7的高可用性核心業務
Shared Nothing	如圖三所示，資料和節點有一一對應關係	每個節點互動少，很容易擴充套件	如果需要訪問所有資料，需要所有節點都可用	SQL Server、DB2、Hadoop以及Greenplum

1.2.1.Master Host

1) 建立與客戶端的會話連線和管理；

2) SQL的解析並形成分散式的執行計劃；

3) 將生成好的執行計劃分發到每個Segment上執行；

4) 收集Segment的執行結果；

5) 不儲存業務資料，只儲存資料字典；

6) 可以一主一備，分佈在兩臺機器上，為了提高效能，最好單獨佔用一臺機器。

1.2.2.Segment Host

1) 業務資料的儲存和存取；

2) 執行由Master分發的SQL語句；

3) 對於Master來說，每個Segment都是對等的，負責對應資料的儲存和計算；

4) 每一臺機器上可以配置一到多個Segment，因此建議採用相同的機器配置。

1.2.3.Interconnect

1) 是GP資料庫的網路層，在每個Segment中起到一個IPC作用；

2) 推薦使用千兆乙太網交換機做Interconnect；

3) 支援UDP和TCP兩種協議，推薦使用UDP協議，因為其高可靠性、高效能以及可擴充套件性；而TCP協議最高只能使用1000個Segment例項。

1.3.網路配置示例

圖四

圖四顯示一個常見的網路配置示例，其中X4200是主節點，X4500(Segment host1)是主從節點，當主節點宕機後會主節點服務切換到此節點上，X4500(Segment host2)是從節點。

每個網路介面對應不同的網口，隔離到獨立網路，保證不會競爭其他埠的網路頻寬，提高網路的可靠性；串列埠連線到交換機是管理員管理的視窗。

1.4.Greenplum 高可用性體系架構

圖五

圖五中顯示高可用性體系的示例圖，其中按照從左到右且從上到下依次是主從節點，主節點，客戶端，私有區域網以及從節點叢集，實現功能和圖一基本一致。

1.5.Master/Standby 映象保護

圖六

圖六說明：Standby 節點用於當 Master 節點損壞時提供 Master服務，Standby 實時與Master 節點的Catalog 和事務日誌保持同步，確保系統的變更資訊不會丟失，提升系統的健壯性。

1.6.資料冗餘-Segment 映象保護

圖七

圖七說明：

1) 當GP配置了映象節點之後，主節點不可用時會自動切換到映象節點，叢集仍然保持可用狀態。當主節點恢復並啟動之後，主節點會自動恢復期間的變更；

2) 只要Master不能連線上Segment例項時，就會在系統表中將此例項標識為不可用，並用映象節點來代替，一般需要和主節點位於不同的伺服器上，當Primary Segment失敗時，Mirror Segment將自動提供服務，Primary Segment恢復正常後，使用gprecoverseg –F 同步資料

1.7.Segment 主機硬體配置示例

圖八

1.8.網路冗餘

圖九

圖九說明：

1) 資料之間存在冗餘，網路也存在冗餘；

2) 公共網路連線到主節點，主節點通過一臺或者多臺交換機連線到子節點。

Greenplum+Hadoop學習筆記-Greenplum概述及架構

0.寫在前面:

1. Greenplum概述及架構

1.1. 什麼是Greenplum

1.2. Greenplum 體系架構

1.2.1.Master Host

1.2.2.Segment Host

1.2.3.Interconnect

1.3.網路配置示例

1.4.Greenplum 高可用性體系架構

1.5.Master/Standby 映象保護

1.6.資料冗餘-Segment 映象保護

1.7.Segment 主機硬體配置示例

1.8.網路冗餘

Greenplum+Hadoop學習筆記-Greenplum概述及架構

十四、Hadoop學習筆記————Zookeeper概述

hadoop學習筆記-hive安裝及操作

hadoop學習筆記(一)——hadoop安裝及測試

資料庫之路——greenplum資料庫學習筆記

Hadoop學習筆記(一)----環境搭建之VMware虛擬機器安裝及建立CentOS

hadoop學習筆記-HDFS的REST接口

Hadoop 學習筆記 (2) -- 關於MapReduce

MySql 基礎學習筆記 1——概述與基本數據類型：整型： 1）TINYINT 2)SMALLINT 3) MEDIUMINT 4)INT 5)BIGINT 主要是大小的差別圖浮點型：命令

hadoop學習筆記(1)

AngularJs學習筆記3-服務及過濾器

Hadoop學習筆記：MapReduce框架詳解

Linux學習筆記——bash命令及shell變量簡介

七、Hadoop學習筆記————調優之Hadoop參數調優

八、Hadoop學習筆記————調優之Hive調優

Hadoop學習筆記—5.自定義類型處理手機上網日誌

Hadoop學習筆記—18.Sqoop框架學習

Hadoop學習筆記系列文章導航

Hadoop學習筆記—16.Pig框架學習

Hadoop學習筆記—15.HBase框架學習（基礎知識篇）

Greenplum+Hadoop學習筆記-Greenplum概述及架構

0.寫在前面:

1. Greenplum概述及架構

1.1. 什麼是Greenplum

1.2. Greenplum 體系架構

1.2.1.Master Host

1.2.2.Segment Host

1.2.3.Interconnect

1.3.網路配置示例

1.4.Greenplum 高可用性體系架構

1.5.Master/Standby 映象保護

1.6.資料冗餘-Segment 映象保護

1.7.Segment 主機硬體配置示例

1.8.網路冗餘

相關推薦