1. 程式人生 > 其它 >datax、datax_web環境搭建

datax、datax_web環境搭建

適用場景

datax配合datax_web可進行 1 歷史資料遷移;2 億萬資料大庫切成小庫等資料抽取的場景操作。

(更適合全量資料的場景,增量建議用canal,datax也可實現每日同步資料)

一 官方文件

datax https://github.com/alibaba/DataX/blob/master/introduction.mdgithub.com
datax-web https://github.com/WeiYe-Jing/datax-web/blob/master/userGuid.md

【得物技術】MySQL多表關聯同步到ES的實踐

使用DataX同步MaxCompute資料到TableStore(原OTS)優化指南-InfoQ

二 環境準備

windows python環境 datax專案 datax_web專案


我個人電腦環境

win10

python3.8.5 (或可python2環境)

datax專案 連結:https://pan.baidu.com/s/1KfRU5SJas0C94x84W6s5IQ 提取碼:9aok (裡面有一些使用說明)

datax_web專案連結:https://pan.baidu.com/s/1cNcMqdQwdRJxABBBUNE2qA 提取碼:xpaj

三 專案相關配置

1 datax專案

1.1 先配置 D:\datax\job 目錄下的job中的reader、writer。就理解成用navicat新建mysql連線

1.2 在D:\datax\bin 目錄下cmd 執行 datax.py 指令碼,即可執行成功。

輸入命令如:python D:\datax\bin>python D:\datax\bin\datax.py D:\datax\job\job.json

執行如圖:

執行成功後如下圖:

注意:python2環境python3環境執行適配的指令碼版本有所不同,可在官網下載。 官網python3指令碼下載路徑datax-web/doc/datax-web/datax-python3 at master · WeiYe-Jing/datax-web · GitHub

2 datax_web專案

2.1 修改配置

D:\IdeaProjects\datax-web\datax-admin\src\main\resources\application.yml

修改資料來源配置

修改郵箱配置(可選)

修改列印日誌配置

D:\IdeaProjects\datax-web\datax-executor\src\main\resources\application.yml

修改埠、日誌路徑等相關配置

D:\IdeaProjects\datax-web\datax-admin\src\main\resources\bootstrap.properties

2.2 需要啟動兩個Application

DataXAdminApplication DataXExecutorApplication

2.3 開啟網址

開啟http://10.1.28.108:8080/index.html 即可訪問。

成功執行如圖:

四 任務從開始到執行

1 專案管理中建立專案

2 執行器管理中新建執行器(建議採用手動錄入的方式)

3 資料來源管理中新建資料來源

4 任務管理中Datax任務模板建立

5 任務構建

構建成功後會自動在任務管理中新增一個任務。 這時候可以開啟進行編輯,內容如下

沒啥問題就點選操作按鈕

點選執行一次,之後點選查詢日誌即可看job的執行情況。

注意:如果重複執行會報存在髒資料,主鍵唯一。執行到一半停止再次執行的情況,正在測試。

6 任務批量構建

點選下一步就會批量建立完成。之後也可在任務管理中進行job的調整等。

五 datax效能優化和job中的引數說明

轉自:https://www.jianshu.com/p/b6a4dadd98a4