datax、datax_web環境搭建
適用場景
datax配合datax_web可進行 1 歷史資料遷移;2 億萬資料大庫切成小庫等資料抽取的場景操作。
(更適合全量資料的場景,增量建議用canal,datax也可實現每日同步資料)
一 官方文件
datax https://github.com/alibaba/DataX/blob/master/introduction.mdgithub.com
datax-web https://github.com/WeiYe-Jing/datax-web/blob/master/userGuid.md
使用DataX同步MaxCompute資料到TableStore(原OTS)優化指南-InfoQ
二 環境準備
windows python環境 datax專案 datax_web專案
我個人電腦環境
win10
python3.8.5 (或可python2環境)
datax專案 連結:https://pan.baidu.com/s/1KfRU5SJas0C94x84W6s5IQ 提取碼:9aok (裡面有一些使用說明)
datax_web專案連結:https://pan.baidu.com/s/1cNcMqdQwdRJxABBBUNE2qA 提取碼:xpaj
三 專案相關配置
1 datax專案
1.1 先配置 D:\datax\job 目錄下的job中的reader、writer。就理解成用navicat新建mysql連線
1.2 在D:\datax\bin 目錄下cmd 執行 datax.py 指令碼,即可執行成功。
輸入命令如:python D:\datax\bin>python D:\datax\bin\datax.py D:\datax\job\job.json
執行如圖:
執行成功後如下圖:
注意:python2環境python3環境執行適配的指令碼版本有所不同,可在官網下載。 官網python3指令碼下載路徑datax-web/doc/datax-web/datax-python3 at master · WeiYe-Jing/datax-web · GitHub
2 datax_web專案
2.1 修改配置
D:\IdeaProjects\datax-web\datax-admin\src\main\resources\application.yml
修改資料來源配置
修改郵箱配置(可選)
修改列印日誌配置
D:\IdeaProjects\datax-web\datax-executor\src\main\resources\application.yml
修改埠、日誌路徑等相關配置
D:\IdeaProjects\datax-web\datax-admin\src\main\resources\bootstrap.properties
2.2 需要啟動兩個Application
DataXAdminApplication DataXExecutorApplication
2.3 開啟網址
開啟http://10.1.28.108:8080/index.html 即可訪問。
成功執行如圖:
四 任務從開始到執行
1 專案管理中建立專案
2 執行器管理中新建執行器(建議採用手動錄入的方式)
3 資料來源管理中新建資料來源
4 任務管理中Datax任務模板建立
5 任務構建
構建成功後會自動在任務管理中新增一個任務。 這時候可以開啟進行編輯,內容如下
沒啥問題就點選操作按鈕
點選執行一次,之後點選查詢日誌即可看job的執行情況。
注意:如果重複執行會報存在髒資料,主鍵唯一。執行到一半停止再次執行的情況,正在測試。
6 任務批量構建
點選下一步就會批量建立完成。之後也可在任務管理中進行job的調整等。
五 datax效能優化和job中的引數說明
轉自:https://www.jianshu.com/p/b6a4dadd98a4