DAOS 分散式非同步物件儲存|架構設計
阿新 • • 發佈:2021-04-01
分散式非同步物件儲存 ([DAOS](https://github.com/daos-stack)) 是一個開源的物件儲存系統,專為大規模分散式非易失性記憶體 (NVM, Non-Volatile Memory) 設計,利用了SCM(Storage-Class Memory) 和 NVMe(Non-Volatile Memory express) 固態盤等的下一代 NVM 技術。
DAOS 是一種橫向擴充套件的物件儲存,可以為高效能運算應用提供高頻寬、低延遲和高 IOPS 的儲存容器,並支援結合模擬、資料分析和機器學習的下一代以資料為中心的工作流程。
與主要針對旋轉介質設計的傳統儲存堆疊不同,DAOS 針對全新 NVM 技術進行了重新構建,可在使用者空間中端對端地執行,並能完全繞開作業系統,是一套輕量級的系統。
DAOS 提供了一種為訪問高細粒度資料提供原生支援的 I/O 模型,而不是傳統的基於高延遲和塊儲存設計的 I/O 模型,從而釋放下一代儲存技術的效能。
與傳統的緩衝區不同,DAOS 是一個獨立的高效能容錯儲存層,它不依賴其它層來管理元資料並提供資料恢復能力。DAOS 伺服器將其元資料儲存在持久記憶體中,而將批量資料直接儲存在 NVMe 固態盤中。
# DAOS 特性
DAOS 依靠 OFI(OpenFabric Interface) 繞過作業系統,將 DAOS 操作交付給 DAOS 儲存伺服器,充分利用架構中的任何遠端直接記憶體訪問 (RDMA, Remote Direct Memory Access) 功能,進行低延遲、高訊息速率的使用者空間通訊,並將資料儲存在持久記憶體和 NVMe 固態盤中。
DAOS 的鍵值儲存介面提供了統一的儲存模型,通過遷移 I/O 中介軟體庫實現對 DAOS API 的原生支援後,就能利用 DAOS 豐富的 API 和先進功能,例如 HDF5、MPI-IO 和 Apache Arrow。
DAOS 還提供 POSIX 的模擬。POSIX 不再是新資料模型的基礎,而是像其他 I/O 中介軟體一樣,POSIX 介面將構建為 DAOS 後端 API 頂部的庫。
DAOS 的 I/O 操作會被記錄並存儲到 SCM 維護到持久索引中,每次 I/O 都用一個特定時間戳標記,並與資料集的特定版本關聯。內部不執行讀-修改-寫 (read-modify-write) 操作,寫入操作是無損的,對對齊不敏感。在讀取請求時,DAOS 伺服器遍歷持久索引,建立聚合 RDMA 描述符,從而直接在應用程式提供的緩衝區中重建所請求的版本的資料。
SCM 直接對映到 DAOS 服務地址空間的記憶體,DAOS 服務通過直接載入/儲存來管理持久索引。根據不同 I/O 的特性,DAOS 服務可以決定將 I/O 儲存在 SCM 或 NVMe 中:
- 對延遲敏感的I/O(如應用程式元資料和位元組粒度資料)通常儲存在 SCM 中;
- 檢查點和批量資料儲存在 NVMe 中。
這種方法允許 DAOS 將資料流式傳輸到 NVMe 中,並在 SCM 中維護內部元資料索引,為批量資料提供原始 NVMe 頻寬。持久記憶體開發工具包 [PMDK](https://pmem.io/pmdk/) 管理對 SCM 的事務性訪問,儲存效能開發工具包 [SPDK](https://spdk.io/) 對 NVMe 裝置進行使用者空間 I/O 操作。
DAOS 可以提供:
- 超高細粒度、低延遲和真正零拷貝的 I/O
- 非阻塞型資料和元資料操作,以支援 I/O 和計算重疊
- 先進的資料放置,以解決故障域
- 由軟體管理冗餘,可通過線上重建,支援複製和擦除程式碼
- 端到端 (E2E) 資料完整性
- 可擴充套件的分散式事務,提供可靠的資料一致性和自動恢復功能
- 資料集快照功能
- 安全框架,用於管理儲存池的訪問控制
- 軟體定義儲存管理,用於調配、配置、修改和監控儲存池
- 通過 DAOS 資料模型和 API,為 I/O 中介軟體庫(例如 HDF5、 MPI-IO 和 POSIX)提供原生支援。應用無需移植程式碼,即可直接使用 DAOS API
- Apache Spark 整合
- 使用釋出/訂閱 API,實現原生生產者/消費者工作流程
- 資料索引和查詢功能
- 儲存內計算,以減少儲存和計算節點之間的資料移動
- 容災工具
- 與 Lustre 並行檔案系統無縫整合,並能擴充套件到其他並行檔案系統,從而為跨多個儲存層的資料訪問提供統一的名稱空間
- 資料搬運器,用於在 DAOS 池之間遷移資料集,將資料集從並行檔案系統遷移到 DAOS,反之亦然
# DAOS 元件
一個數據中心可能有數十萬個計算節點,通過一個可伸縮的高效能結構相互連線,其中所有節點或稱為儲存節點的節點子集都可以直接訪問 NVM 儲存。
DAOS 安裝涉及幾個可以集中或分散式的元件。
## DAOS 系統和儲存節點
DAOS系統由一個系統名標識,它由一組連線到同一結構的 DAOS 儲存節點組成。DAOS 儲存節點為每個節點執行一個 DAOS 服務例項,該例項為每個物理套接字啟動一個 DAOS I/O 引擎程序。這些 DAOS 服務的資訊被記錄到系統對映中,該對映為每個 I/O 引擎程序分配一個唯一的整數秩。兩個不同的 DAOS 系統由兩組不相交的 DAOS 伺服器組成,它們之間無法相互配合。
## DAOS 服務
DAOS 服務是一個多租戶守護程序,執行在每個儲存節點的 Linux 例項上(物理節點、虛擬機器或容器)。服務的 I/O 引擎子程序通過網路匯出本地連線的 SCM 和 NVM 儲存。服務監聽一個管理埠(由 IP 地址和 TCP 埠號定址),以及一個或多個結構端點(由網路 URI 定址)。
DAOS 服務通過 `/etc/DAOS` 中的 YAML 檔案進行配置,包括其 I/O 引擎子程序的配置。服務的啟動可以與不同的守護程序管理或編排框架整合(systemd 指令碼、Kubernetes 服務、或類似 pdsh 和 srun 的並行啟動程式)。
## I/O引擎
在 DAOS I/O 引擎中,儲存靜態地跨越多個 Target 分割槽,增強併發能力。為了避免競爭,每個 Target 都有其私有儲存、自己的服務執行緒池以及專用的網路上下文,這些上下文可以直接通過結構定址,而不依賴於託管在同一儲存節點上的其他 Target 。
SCM 模組通常以 *AppDirect interleaved* 模式配置。因此,它們作為每個套接字(在 `fsdax` 模式)的單個 PMEM 名稱空間呈現給作業系統。當配置每個 I/O 引擎的 N 個 Target 時,每個 Target 都使用該套接字 `fsdax` 的 SCM 容量的 $\frac{1}{N}$,與其它 Target 獨立。每個 Target 還使用連線到此套接字的 NVMe 驅動器容量的一小部分。
## Target
Target 沒有針對儲存介質故障實現任何內部資料保護機制。因此,一個 Target 就是一個單點故障,同時也是故障單元。動態狀態與每個 Target 相關聯:其狀態可以是“up and running”,也可以是“down and not available”。
Target 是效能的單位。與 Target 關聯的硬體元件(如後端儲存介質、CPU 核心和網路)的能力和容量有限。
DAOS I/O 引擎例項匯出的 Target 數是可配置的,取決於底層硬體(I/O 引擎例項的 SCM 模組數和 NVMe SSD 數)。I/O 引擎的 Target 數的最佳配置是該 I/O 引擎服務的 NVMe 驅動器數的整數倍。
## 儲存 API、應用程式介面和工具
應用程式、使用者和管理員可以通過兩個不同的客戶端 API 與 DAOS 系統互動。
管理 API 提供了管理 DAOS 系統的介面。它旨在與不同供應商的儲存管理或開源編排框架整合。`dmg` 命令列工具是在 DAOS 的管理 API 上構建的。
DAOS 庫 `libdaos` 實現了 DAOS 儲存模型,主要提供給希望在 DAOS 系統中儲存資料集的應用程式和 I/O 中介軟體的開發人員。使用者常用的 `daos` 命令等的也構建在 API 之上,允許使用者通過命令列管理資料集。
應用程式可以通過本機 DAOS API、I/O 中介軟體庫(如 POSIX 模擬、MPI-IO、HDF5)或已與本機 DAOS 儲存模型整合的 Spark 或 TensorFlow 等框架直接訪問儲存在 DAOS 中的資料集。
## 代理
DAOS 代理是駐留在客戶端節點上的守護程序,通過與 DAOS 庫互動驗證應用程式程序。它是一個可信任的實體,支援使用證書對 DAOS 客戶端進行簽名。DAOS 代理支援不同的身份驗證框架,並使用 Unix 域套接字與客戶端庫通訊。
# 相關資訊
> GitHub: https://github.com/storagezhang
>
> Emai: [email protected]
>
> 華為雲社群: https://bbs.huaweicloud.com/blogs/253697
>
> DAOS: https://github.com/daos-stack/daos
>
> 本文翻譯自 https://daos-stack.github.io/overview/archi