1. 程式人生 > >Greenplum資料庫(GPDB)初識

Greenplum資料庫(GPDB)初識

1、特性

Greenplum資料庫(GPDB),分散式資料庫,資料倉庫快速查詢工具,特性:

1)GPDB完全支援ANSI SQL 2008標準和SQL OLAP 2003 擴充套件,從應用程式設計介面上講,它支援ODBC和JDBC;和 NoSQL、NewSQL和Hadoop 等不支援 SQL不一樣 ;

2)支援分散式事務,支援ACID;保證資料的強一致性。

3)分散式資料庫,擁有良好的線性擴充套件能力。

我的一個簡單理解就是:Hadoop和GPDB都是分散式叢集(分散式儲存和分散式計算),不同的是GPDB是支援SQL標準,或者說處理和儲存結構化資料,適用OLAP和OLTP,適用資料集市和資料倉庫的建設。

2、架構


資料庫由Master Severs和Segment Severs通過Interconnect互聯組成。

1)Master主機負責:建立與客戶端的連線和管理;SQL的解析並形成執行計劃;執行計劃向Segment的分發收集Segment的執行結果;Master不儲存業務資料,只儲存資料字典。  

2)Segment主機負責:業務資料的儲存和存取;使用者查詢SQL的執行。 

Master類似於Hadoop平臺的Namenode,而Segment則類似於Hadoop平臺的Datanode。

 greenplum使用mpp架構。


 greenplum部署體系


3、Master節點:


master node高可用,類似於hadoop的namenode和second namenode,實現主備的高可用。


4、Segments節點


5、管理

1)資料裝載和效能監控


2)並行備份和恢復


3)資料訪問流程


4)查詢流程:分查詢建立和查詢分發,計算後將結果返回


5)分佈儲存


資料的分佈,分為hash分佈和隨機分佈兩種。


線上資料分佈:均勻分佈