1. 程式人生 > 其它 >雲小課|雲小課帶你快速掌握雲資料遷移CDM

雲小課|雲小課帶你快速掌握雲資料遷移CDM

閱識風雲是華為雲資訊大咖,擅長將複雜資訊多元化呈現,其出品的一張圖(雲圖說)、深入淺出的博文(雲小課)或短視訊(雲視廳)總有一款能讓您快速上手華為雲。更多精彩內容請單擊此處。

摘要:歡迎來到雲資料遷移CDM的世界,跟著雲小課一起學習雲資料遷移。本課主要介紹雲資料遷移的基本概念、功能、應用場景及使用過程,幫助您更好的瞭解雲資料遷移。

本文分享自華為雲社群《【雲小課】EI第35課 雲小課帶你快速掌握雲資料遷移CDM》,原文作者:閱識風雲

雲資料遷移是什麼?

雲資料遷移(Cloud Data Migration,簡稱CDM)是一種高效、易用的批量資料遷移服務,提供同構/異構資料來源之間批量資料遷移服務,幫助客戶實現資料自由流動。支援客戶自建和公有云上的檔案系統,關係資料庫,資料倉庫,NoSQL,大資料雲服務,物件儲存等資料來源。

CDM同時也可以作為資料湖治理中心(Data Lake Governance Center,簡稱DGC)服務的一個元件,在產品能力上和獨立形態保持一致,為DGC提供了簡單易用的遷移能力和多種資料來源到資料湖的整合能力,降低了客戶資料來源遷移和整合的複雜性,有效的提高您資料遷移和整合的效率。

產品功能

  • 表/檔案遷移:實現在同構、異構資料來源之間進行表或檔案級別的資料遷移。
  • 整庫遷移:支援在同構、異構資料來源之間進行整庫遷移。
  • 增量資料遷移:支援檔案增量遷移、關係型資料庫增量遷移、HBase/CloudTable增量遷移,以及使用Where條件配合時間變數函式實現增量資料遷移。
  • 事務模式遷移:支援當CDM作業執行失敗時,將資料回滾到作業開始之前的狀態,自動清理目的表中的資料。
  • 欄位轉換:支援去隱私、字串操作、日期操作等常用欄位的資料轉換功能。
  • 檔案加密:在遷移檔案到檔案系統時,CDM支援對寫入雲端的檔案進行加密。
  • MD5校驗一致性:支援使用MD5校驗,檢查端到端檔案的一致性,並輸出校驗結果。
  • 髒資料歸檔:支援將遷移過程中處理失敗的、被清洗過濾掉的、不符合欄位轉換或者不符合清洗規則的資料單獨歸檔到髒資料日誌中,便於使用者檢視。並支援設定髒資料比例閾值,來決定任務是否成功。
  • 正則表示式分隔半結構化文字:支援在建立表/檔案遷移作業時,對簡單CSV格式的檔案,可以使用欄位分隔符進行欄位分隔。

應用場景

CDM提供了大資料遷移上雲、資料批量入湖兩種應用場景。

  • 大資料遷移上雲場景使用大資料雲服務的彈性和按需能力作為線下自建大資料平臺的替代或備用,資料量大,全量遷移。
  • 資料批量入湖場景支援使用者本地資料全量和T+1增量入湖。

CDM的使用過程

CDM使用簡單,您只需通過視覺化介面對資料來源和遷移任務進行配置,CDM會對資料來源和任務進行全面的管理和維護,您只需關注資料遷移的具體邏輯,無需關心環境等問題,極大降低了開發維護成本。

Step1建立CDM叢集

一個CDM叢集執行在一個彈性雲伺服器之上,您可以在叢集中建立資料遷移作業,在雲上和雲下的同構/異構資料來源之間批量遷移資料。

目前CDM支援以下規格供使用者選擇:

  • large
  • xlarge
  • cdm.4xlarge

Step2建立資料來源連線

批量資料遷移有兩種遷移方式,支援的資料來源不相同:

  • 表/檔案遷移:適用於資料上雲、雲服務間資料交換、雲上資料遷移到本地業務系統。請參見表/檔案遷移支援的資料來源型別。
  • 整庫遷移:適用於資料庫上雲,請參見整庫遷移支援的資料來源型別。

Step3建立遷移作業

Substep1:配置源和目的聯結器,建立連線

這裡以MySQL匯入到DWS為例,首先我們在源端作業配置中選擇模式和表名,然後在目的端作業配置中選擇要遷移到哪個表中,這裡還可以配置是否自動建立目標表、DWS儲存模式等選項。

Substep2:配置欄位對映

CDM會自動匹配源端和目的端的資料表字段,這裡系統會按照自然順序列出來,如果需要調整的話,可以調整欄位的對映關係。

Substep3:配置任務配置資訊,並執行作業

配置任務排程資訊,可以配置定時任務,是否寫髒資料,任務併發數等引數。

執行結果的這個截圖這是一個真實的測試資料,這個MySQL到DWS作業遷移了一億條記錄,資料量大約14GB,使用了5分38秒,每秒遷移接近30萬條資料。

還等什麼,實踐一下,快去體驗雲資料遷移更多功能吧!

瞭解更多雲資料遷移資訊,戳這裡。

點選關注,第一時間瞭解華為雲新鮮技術~