1. 程式人生 > 資訊 >甲骨文斷供俄羅斯!中國資料庫能否一戰?產業深度覆盤與展望

甲骨文斷供俄羅斯!中國資料庫能否一戰?產業深度覆盤與展望

近期,俄烏衝突持續焦灼,美歐也一直沒閒著,除了直接提供武器物資,制裁大棒一刻沒停下。3 月 3 日,烏克蘭副總理米哈伊洛・費多羅夫在社交媒體向 50 多家美國科技公司發起呼籲,用科技戰逼退俄羅斯的軍隊,呼籲這些企業斷供俄羅斯。短短三小時內,甲骨文就第一個宣佈,暫停俄羅斯所有業務。緊隨其後,IBM、英特爾、谷歌、蘋果、微軟、Facebook、亞馬遜、戴爾等 20 多家美國科技公司也宣佈對俄羅斯進行制裁。

資料庫是 IT 行業的核心環節,而甲骨文是商業資料庫最有代表性的科技巨頭。甲骨文與 IBM、EMC 公司合作,形成了一條完整的資料庫產業鏈,稱作“IOE”架構。可喜可賀的是,我國早在 10 多年前就開始佈局了“去 IOE”化。2021 上半年中國公有云關係型資料庫規模 6.7 億美元,叱吒風雲的甲骨文,則僅佔 3.6%。中國企業,有了屬於自己的資料生態。但是,數字經濟的不斷髮展,我國自主的資料庫產業仍遠遠不夠。

原標題:《資料庫深度覆盤與展望》作者:劉玉萍 ,來源 招商證券

01.七大維度,還原資料庫發展歷程

回顧資料庫 70 年發展歷程,分散式、雲端計算、人工智慧等創新技術和基礎設施的發展陸續為演化注入新活力。以下我們將從資料模型邏輯、技術架構、需求功能、部署方式、儲存介質、商業模式、資料庫治理模式等七大維度對資料庫發展脈絡進行詳細闡述,理清行業演化邏輯與發展趨勢。

▲ 資料庫發展歷程

資料模型的演化本質由底層資料規模、邏輯關係、型別等驅動,其路徑是:層次-> 網狀-> 關係-> 關係、非關係並行。在當前關係、非關係並行時代,新型 NewSQL 與多模資料庫快速發展。傳統 SQL 受限於其拓展性,在大資料發展下逐漸面臨瓶頸,而 NewSQL 提供了與 NoSQL 相同的可擴充套件性,而且仍基於關係模型,保留了極其成熟的 SQL 作為查詢語言,從而保證了資料的強一致性;同時,基於分散式架構,對接多種資料模型引擎,避免搭建多種類資料庫的多模資料庫快速發展。

▲ 資料庫模型發展路徑

資料庫前期的演化史本質上是關係型資料庫的演化,關係型資料庫已統治市場超過 50 年。關係型資料庫以二維表形式儲存實體和關係,具有易理解、易使用、易維護,自 1970 年誕生以來,逐步成為業界的霸主。時至今日,關係型資料庫不斷融入分散式、雲原生、AI 等新興技術持續進化,仍是資料庫的主流,據 DB-Engines 熱度排名(截至 2022/02),前四大資料庫 Oracle、MySQL、Microsoft、PostgreSQL 均為關係型資料庫,且分數遙遙領先。

SQL 是關係型資料庫的標準語言,相比 C、Java、Python 等程式語言,SQL 貼合口語的設計使得其程式碼複雜度大大簡化、便於資料分析人員上手,同時嵌入式的設計也保證了 SQL 可以被其他程式語言輕鬆呼叫,據 TIOBE 統計,SQL 在近 20 年穩居 TOP10 程式語言榜單。關係型資料庫的二維表資料儲存模式為關係型資料庫的流行普及提供了環境基礎;而 SQL 語言的流行也反哺了關係型資料庫的推廣,兩者相輔相成,共贏於資料庫市場。

▲ DB-Engines 流行資料庫排名前十

隨著網際網路業務規模快速增長,擁有靈活拓展與高讀寫併發能力 NoSQL 資料庫得到快速發展。由於傳統的關係型資料庫在保證資料強一致與系統可用的前提下,其水平擴充套件能力受到限制;非關係型資料庫 NoSQL 則是基於分散式儲存原理,放棄了傳統的關係模型,在一致性與可用性之間尋求平衡,從而保證了系統地靈活拓展與高讀寫併發能力。隨著社交媒體等網際網路業務快速發展,資料量激增,傳統關係型資料庫效能逐漸達到瓶頸,因此,以保證拓展性與高併發效能為前提地 NoSQL 資料庫得到快速發展。

為了應對資料的海量增長並追求更低的擴容成本,資料庫由單機、集中式向分散式架構快速發展。隨著資訊化水平快速提升,對資料庫的儲存、讀寫併發、擴容要求更高,集中式架構的“Scale Up”縱向擴容機制面臨硬體效能瓶頸,因此“Scale Out”式的橫向擴容分散式架構成為新趨勢,通過網路將物理分散的資料庫單元連線為邏輯上的統一整體。從集中式到分散式的演進降低了對硬體效能的要求,使得企業資料庫拓展成本大幅降低。

分散式架構由共享磁碟、共享記憶體架構,逐步向純無共享架構發展,在無共享架構中,每個處理器私有記憶體和磁碟空間,利用網路通訊,“Scale Out”式橫向增加處理器和相應的記憶體、磁碟,從而避免事務對記憶體訪問和網路頻寬的競爭,提高處理效能。國產方面,無共享分散式架構已經趨於成熟,如 PingCAP 的 TiDB、華為的 GaussDB、螞蟻的 Oceanbase、達夢的達夢 +、阿里雲的 PolarDB、騰訊雲 TDSQL、南大通用的 GBase、人大金倉的 KingBase、中興通訊的 Golden DB 等分散式資料庫均為 MPP 無共享架構。

▲ 各架構對比

需求功能決定資料庫邏輯架構,邏輯架構決定訪問效能。為實現海量資料儲存、線上高併發,並同時支援 OLTP 和 OLAP 的功能,HTAP 應運而生,按照具體架構可分為 3 類:

▲ HTAP 不同架構

根據墨天輪排名(截至 2022/02),目前國內前六大資料庫均為 HTAP + 分散式架構,包括 PingCAP 的 TiDB、華為 openGauss、螞蟻 OceanBase、達夢的達夢 +、華為 GaussDB、阿里 PolarDB。其中排名第一的 PingCAP 基於 Google 的 Spanner 模型和 Stanford 的 Raft 演算法研發 TiDB 資料庫,藉助底層資料同步及行列透明轉換技術,將面向聯機交易的行存引擎與面向實時分析的列存引擎融合改造為行列混合資料架構。在 HTAP 技術浪潮中,TiDB 資料庫憑藉水平線性擴充套件、強一致分散式事務、故障自恢復的金融級高可用、真正跨資料中心多活等核心特性拔得頭籌。

部署方式的演化上,資料庫上雲成為重要發展趨勢。隨著雲基礎設施的成熟和企業解放 DBA 運維難度的需求日漸迫切,將傳統資料庫直接部署在雲端,由雲廠商提供安裝和維護服務的雲託管資料庫逐漸受到業內追捧。據 Gartner 預測:2023 年雲 DBMS 收入將佔 DBMS 市場總收入的 50%,75% 的資料庫將部署在雲端。在資料庫上雲過程中,資料遷移是最大的痛點。針對企業面臨的完整性、安全性、一致性等難題,市場催生了安暢網路、數騰軟體等提供資料上雲遷移的第三方公司。

據 IDC 統計,2021 年 H1 中國關係型資料庫本地部署模式被 Oracle、華為、Microsoft、IBM 壟斷,而同期的公有云部署市場由阿里巴巴、騰訊、AWS 和華為領銜。2020 年,阿里雲陸續推出 Lindorm、PolarDB-X、ADB 等雲原生分散式資料庫,是首家 Gartner 全球資料庫魔力象限歸入領導者象限的國內廠商。騰訊雲研發 TDSQL-C,積極擁抱開源,100% 相容 MySQL 和 PostgreSQL,實現超百萬級 QPS 高吞吐,助力中小企業,連續兩年增速全球前三。華為雲深耕金融行業信創,早在 2015 年就開始部署上線業界首個 AI Native 的雲原生資料庫 GaussDB。

商業模式上,已逐漸成為資料庫產業的共識。2021 年 1 月,根據 DB-Engines,全球資料庫開源許可證流行度首次超過商業許可證,開源資料庫逐漸成為行業主流。截止 2021 年 6 月,開源與商業許可證數量分別為 198 和 185 個,流行度分別佔比 51.4% 和 48.6%。開源有助於擴大人才規模及上下游生態影響力,通過運營開源社群快速獲得反饋並加快產品開發、提升產品質量,同時反哺社群開發者及獨立軟體開發商(ISV)等生態夥伴,能夠達到多方共贏目的。據信通院調查:超八成的企業認可開源,開源主要應用在儲存、大資料分析和資料庫領域。

從 2014 年起,巨杉 SequoiaDB、PingCAP TiDB、百度 Doris 和 HugeGraph、濤思資料 Tdengine、尤拉 NebulaGraph、華為 openGauss、阿里 PolarDB、螞蟻 OceanBase 等相繼宣佈開源,國內開源大軍不斷壯大。

儲存介質分類演化:記憶體資料庫提升讀寫效能。早期資料庫將大部分資料儲存在磁碟上,使用記憶體快取磁碟內容作為臨時儲存,統稱磁碟資料庫;隨著電商、直播、新聞查詢等對讀寫效能要求高的場景出現,業界對響應速度的要求逐漸提升,將資料全部儲存在記憶體中、資料更新過程不受磁碟 I / O 限制的記憶體資料庫逐漸成為主流。據 Research and Market 統計,全球記憶體資料市場未來 5 年的 CAGR 為 19%。

自 1982 年 80286 晶片推出以來,記憶體市場歷經 40 年的發展,容量遵循摩爾定律翻倍,價格下降超過百萬倍,資料大規模儲存在記憶體中成為可能。國際市場上,Pivotal 支援的 Redis 和 SAP 的 HANA 領銜鍵值對、關係型記憶體資料庫;國內市場上 ,快 立 方 的 Qcubic 和 科 藍 軟 件 的 Goldilocks 已經應用在運營商、金融、交通等行業。

治理模式分類演化:AI 助力資料庫自治。以 Oracle 的 Autonomous Database 為例,自治驅動自動針對特定負載配置調優、按需擴充套件提供高可用資料庫;自治修復自動檢測和防範系統故障、使用者錯誤,在故障發生時自動切換備用資料庫,確保資料零丟失;自治安全自動保護敏感和受監管資料,及時修補資料庫安全漏洞,有效防範未經授權的訪問。

資料安全是資料庫建設的重要前提,自動檢測、防範系統故障、運維保護和修補安全漏洞對資料庫而言至關重要;隨著資訊化的發展,應用系統和資料規模井噴式增長,資料庫的負載調優壓力增大。因此,擺脫對 DBA 的經驗決策依賴,基於人工智慧自動執行安全、備份、打補丁和其他需要大量人工重複勞作、從根本上徹底消除人為差錯、減輕 DBA 工作壓力的自治資料庫成為歷史的必然選擇。目前自治資料庫仍停留在事後判斷階段,展望未來,提前預判資料規模增長趨勢和資料庫負載狀況,事前主動調優是自治資料庫的發展新方向。

02. 三大增量需求,國內資料庫突飛猛進

根據信通院資料,2020 年中國資料庫市場規模為 35 億美元(約合 240.9 億元人民幣),佔全球總規模的 5.2%。預計到 2025 年,全球資料庫市場規模將達到 798 億美元。中國的 IT 總支出將佔全球 12.3%。預計中國資料庫市場在全球的佔比將在 2025 年接近中國 IT 總支出在全球的佔比,市場總規模將達到 688 億元,CAGR 為 23.4%。

金融、電信、政務、製造、網際網路五個行業為資料庫行業下游主要需求領域,大資料應用快速發展為資料庫提供增長動力。根據信通院統計,其合計市場份額高達 80% 以上,2020 年整體採購額超過 192 億元。此外,根據賽迪顧問,2020 年國內大資料市場結構資料,其中網際網路、政府、金融、電信、工業位列前五,佔比分別為 48%、14%、12%、9%、5%,合計約 88%,大資料應用與資料庫需求結構基本吻合,預計隨著大資料應用領域拓展與規模持續增長,將為資料庫行業規模增長提供充足動力。

▲ 國內資料庫規模預計將快速增長

去年各領域“十四五”規劃陸續釋出,資料庫建設與應用在資訊科技、金融、交通物流、農業等眾多領域被多次提及,其中資料庫標準化攻關的重要性首次被提升到前所未有的高度。隨著資料庫頂層設計不斷加碼,十四五期間,國產資料庫研發將步入快車道,國產資料庫競爭實力將顯著增強,行業有望進入加速發展期。

▲ 強化國產資料庫建設在“十四五”規劃中被重點提及

未來資料庫市場增量需求主要來自於以下三方面:

1、國產化程序逐步加速;

2、傳統集中式資料庫向分散式架構升級;

3、非關係型資料庫應用場景不斷豐富,得到快速發展。

以 Oracle、Microsoft、SAP、IBM 為代表的海外廠商,一直以來,因其產品具有更好的效能、穩定性、安全性、與海外 ERP、CRM 等更好地相容性等優勢,在企業核心 OLTP 業務場景一直佔據主導地位。近些年,隨著國產資料庫產品功能、效能水平不斷增強,其產品水平已經逐步趨近於海外廠商,根據 IDC,在傳統關係型資料庫領域,Oracle、Microsoft、SAP、IBM 合計份額從 2019 年 66.8% 下降至 2021H1 的 48.5%,首次降至半數以下,顯示出國產資料庫技術正趨於成熟,在海外廠商為主導的核心 OLTP 應用場景,已經逐步具備運營能力,國產化程序持續加速。

根據信通院統計,目前我國金融行業海外 Oracle 與 IBM DB2 佔比約 74%,佔據主導,基於 MySQL 與 PostgreSQL 二次開發的國產資料庫合計佔比約為 19%,國產化仍有廣闊空間。其中,我們通過對金融行業國產化資料庫建設案例梳理髮現,國產資料庫已經從邊緣系統逐步實現核心系統國產化,顯示出國產資料庫產品功能、效能水平不斷增強。預計隨著行業信創逐步落地,對國產資料庫需求將進一步提速。

▲ 傳統部署關係型資料庫海外廠商份額不斷下降

隨著資料型別、規模的指數級增長,傳統的終端計算場景已經難以應對 資料儲存處理的工作量與複雜度。雲端計算通過存算分離、資源彈性動態分配、邊緣節點計算打破了傳統計算場景的瓶頸,實現了當前資料處理的需求,雲端計算場景的需求推動了分散式資料庫的應用發展:通過資源池化管理實現物理或邏輯層的相互隔離與資源的自由伸縮,

1)具備彈性擴張、HTAP 事務能力、多租戶管理能力、高可用性,與雲端計算場景需求相匹配。

2)對多種訪問介面和資料型別的相容,可以實現對儲存與不同物理伺服器、不同格式的資料進行結構與演算法的優化,突破伺服器型別的限制,為上層不同型別的應用提供多模式的資料服務。

目前,網際網路、金融、電信等行業分散式升級進展較快,以金融和電信行業為例,其核心業務資料型別均為關係型資料庫,此類集中式資料庫所面臨的業務體量將呈現爆發性增長。由於單一硬體能力增長有限,所以無法依靠縱向升級硬體擴充套件存量資料庫能力上限。而分散式資料庫採用多種模式實現資料的分散儲存,將壓力分散到不同伺服器上,並不斷通過增加儲存或計算節點來實現彈性升級,克服了集中式資料庫的諸多缺點,業界已有分散式資料庫在股份制銀行、城商行、二三線城市運營商等實現了核心業務系統的改造落地,同時,去年 12 月,騰訊分散式資料庫 TDSQL 落地東吳證券核心交易系統,也標誌著分散式資料庫在券商核心系統領域取得突破。

墨天輪國產資料流行度排行(截至 2022/02),前十大熱門資料庫均為分散式架構,其應用場景涵蓋各行業,顯示出國產分散式資料庫已經趨於成熟,正成為各行業資料庫建設重要選擇。

▲ 墨天輪前十大熱門資料庫均為分散式資料庫

隨著工業網際網路、網際網路創新型業務、車聯網等應用的快速發展,非關係型資料庫應用將加速落地。我國非關係型資料庫快速發展,正逐步進入世界前列。我國非關係型資料庫主要以基於開源資料庫如 Redis、InfluxDB、CouchDB 等產品進行二次開發為主,根據 DB-Engines 2022 年 2 月排名,國內浙江智臾和阿里雲 TSDB,分別位列時序資料庫第 11、21 位;圖資料庫方面,歐若數網 Nebula Graph、百度智慧雲開源產品 HugeGraph、華為雲 GraphBase 分別位列 15、26、32 位,顯示出國產 NoSQL 資料庫正逐步趨近於世界前列。

▲ NoSQL 資料庫在製造、政府、金融等領域逐步落地

▲ 國內主流資料庫廠商

▲ 網際網路廠商

▲ 部分初創廠商

智東西認為,此次俄烏衝突,美歐試圖將 IT 基礎設施“武器化”,快速打擊俄羅斯的生產和生活秩序,這充分表明在大國競爭中將 IT 基礎設施建立在所謂全球化的根基上是不可靠的,大國的 IT 架構必須堅持獨立自主的發展道路。所以,不僅僅是晶片、資料庫,我們要在科技領域的各個環節,將核心技術牢牢抓在自己手中。