阿里雲資料整合平臺使用教程
資料整合(Data Integration)是阿里集團對外提供的可跨異構資料儲存系統的、可靠、安全、低成本、可彈性擴充套件的資料同步平臺,為20+種資料來源提供不同網路環境下的離線(全量/增量)資料進出通道,是阿里集團對外提供的穩定高效、彈性伸縮的資料同步平臺。致力於提供複雜網路環境下、豐富的異構資料來源之間資料高速穩定的資料移動及同步能力。
關於阿里雲資料整合平臺使用教程:阿里雲資料整合平臺使用教程
離線(批量)資料同步簡介
離線(批量)的資料通道主要通過定義資料來源和去向的資料來源和資料集,提供一套抽象化的資料抽取外掛(稱之為 Reader)、資料寫入外掛(稱之為 Writer),並基於此框架設計一套簡化版的中間資料傳輸格式,從而達到任意結構化、半結構化資料來源之間資料傳輸的目的。
支援資料來源型別
資料整合提供豐富的資料來源支援,如下所示:
文字儲存(FTP / SFTP / OSS / 多媒體檔案等)。
資料庫(RDS / DRDS / MySQL / PostgreSQL 等)。
NoSQL(Memcache / Redis / MongoDB / HBase 等)。
大資料(MaxCompute / AnalyticDB / HDFS 等)。
MPP 資料庫(HybridDB for MySQL 等)。
更多詳情請參見 支援資料來源型別。
注意:
由於每個資料來源的配置資訊差距較大,需要根據使用情況詳細查詢引數配置資訊。所以在資料來源配置、作業配置頁面提供了詳細描述,請您根據自身情況進行查詢使用。
同步開發說明
同步開發提供兩種開發模式:嚮導模式和指令碼模式。
嚮導模式:提供嚮導式的開發引導,通過視覺化的填寫和下一步的引導,幫助快速完成資料同步任務的配置工作。嚮導模式的學習成本低,但無法享受到一些高階功能。
指令碼模式:您可以通過直接編寫資料同步的 JSON 指令碼來完成資料同步開發,適合高階使用者,學習成本較高。指令碼模式可以提供更豐富靈活的能力,做精細化的配置管理。
注意:
嚮導模式生成的程式碼可以轉換為指令碼模式,此轉換為單向操作,轉換完成後無法恢復到嚮導模式。因為指令碼模式能力是嚮導模式的超集。
程式碼編寫前需要完成資料來源的配置和目標表的建立。
網路型別說明
網路型別分為:經典網路、專有網路(VPC)、本地 IDC 網路(規劃中)。
經典網路:統一部署在阿里雲的公共基礎網路內,網路的規劃和管理由阿里雲負責,更適合對網路易用性要求比較高的客戶。
專有網路:基於阿里雲構建出一個隔離的網路環境。您可以完全掌控自己的虛擬網路,包括選擇自有的 IP 地址範圍,劃分網段,以及配置路由表和閘道器。
本地 IDC 網路:您自身構建機房的網路環境,與阿里雲網絡是隔離不可用的。
經典網路和專有網路相關問題請參見 經典網路和 VPC 常見問題 FAQ 。
補充說明:
網路連線可以支援公網連線,網路型別選擇經典網路即可。需要注意公網頻寬的速度和相關網路費用消耗。無特殊情況不建議使用。
規劃中的網路連線,進行資料同步,可以使用本地新增執行資源 + 指令碼模式的方案進行資料同步傳輸。或者使用 SHELL + DataX 方案,此方案請參見 使用 shell 執行 datax 任務。
專有網路 VPC 是構建一個隔離的網路環境,可以自定義 IP 地址範圍、網段、閘道器等隨著專有網路安全性提高,專有網路運用越來越廣,所以資料整合提供了 RDS-MySQL、RDS-SQL Server、RDS-PostgreSQL,在專有網路下不需要購買一臺跟 VPC 同網路的 ECS,系統通過反向代理會自動檢測從而網路能夠互通。對於阿里雲其他的資料庫 PPAS、OceanBase、Redis、MongoDB、Memcache、TableStore、HBase 等,後續也會提供支援。所以非 RDS 的資料來源在專有網路下配置資料整合的同步任務需要購買同網路的 ECS,這樣可以通過 ECS 連通網路。
約束與限制
支援且僅支援結構化(例如 RDS、DRDS 等)、半結構化、無結構化(OSS、TXT 等,要求具體同步資料必須抽象為結構化資料)的資料同步。換言之,Data Integration 支援傳輸能夠抽象為邏輯二維表的資料同步,其他完全非結構化資料,例如 OSS 中存放的一段 MP3,Data Integration 暫未支援將其同步到 MaxCompute,這個功能會在後期實現。
支援單個和部分跨 region 地域內資料儲存相互同步、交換的資料同步需求。
部分地域通過經典網路是可以傳輸的,不能保證。如果必須使用且測試經典網路不通,可以考慮使用公網方式連線。
僅完成資料同步(傳輸),本身不提供資料流的消費方式。
更多精品課程: