Greenplum資料庫(GPDB)初識
1、特性
Greenplum資料庫(GPDB),分散式資料庫,資料倉庫快速查詢工具,特性:
1)GPDB完全支援ANSI SQL 2008標準和SQL OLAP 2003 擴充套件,從應用程式設計介面上講,它支援ODBC和JDBC;和 NoSQL、NewSQL和Hadoop 等不支援 SQL不一樣 ;
2)支援分散式事務,支援ACID;保證資料的強一致性。
3)分散式資料庫,擁有良好的線性擴充套件能力。
我的一個簡單理解就是:Hadoop和GPDB都是分散式叢集(分散式儲存和分散式計算),不同的是GPDB是支援SQL標準,或者說處理和儲存結構化資料,適用OLAP和OLTP,適用資料集市和資料倉庫的建設。
2、架構
資料庫由Master Severs和Segment Severs通過Interconnect互聯組成。
1)Master主機負責:建立與客戶端的連線和管理;SQL的解析並形成執行計劃;執行計劃向Segment的分發收集Segment的執行結果;Master不儲存業務資料,只儲存資料字典。
2)Segment主機負責:業務資料的儲存和存取;使用者查詢SQL的執行。
Master類似於Hadoop平臺的Namenode,而Segment則類似於Hadoop平臺的Datanode。
greenplum使用mpp架構。
greenplum部署體系
3、Master節點:
master node高可用,類似於hadoop的namenode和second namenode,實現主備的高可用。
4、Segments節點
5、管理
1)資料裝載和效能監控
2)並行備份和恢復
3)資料訪問流程
4)查詢流程:分查詢建立和查詢分發,計算後將結果返回
5)分佈儲存
資料的分佈,分為hash分佈和隨機分佈兩種。
線上資料分佈:均勻分佈