datax大資料了同步工具
阿新 • • 發佈:2022-04-18
安裝外掛datax wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
需要基礎環境
jdk8以上
python2或者3
1.資料量少推薦使用streamset 介面化 配置簡單
配置資料來源和寫入淵和源資料表和寫入表即可,之間的欄位關係streamsets自動匹配,區分大小寫。
2.最近做OTC專案 底層的一些資料需要同步 涉及量比較大 目前最多一次是1.3億,同步只能在晚上同步 用streamset同步耗時在15小時左右。
伺服器配置64g記憶體。單執行緒單task所以比較慢。
每個工具都有適用的場景。
這個是我在我們公司伺服器做的測試結果,執行任務的時候沒有加記憶體配置,應該伺服器硬體算是低了了。雖然是8G可是可用記憶體也就沒多少。
可以看到效果還是可觀的。3400萬在44分鐘。如果部署到64記憶體,啟動任務再配置8G記憶體,速度應該可以在半小時內。
{ "job": { "content": [ { "reader": { "name": "sqlserverreader", "parameter": {"connection": [ { "jdbcUrl": ["jdbc:sqlserver://ip;DatabaseName=JNJ_SelfCare_Test"], "querySql": ["select * from T_JNJ_SalesData_RPD_Month"] } ],"password": "", "username": "" } }, "writer": { "name": "sqlserverwriter", "parameter": { "column": ["*"], "connection": [ { "jdbcUrl": "jdbc:sqlserver://ip;DatabaseName=JNJ_SelfCare_Test", "table": ["T_JNJ_SalesData_RPD_Month_0418"] } ], "password": "", "username": "" } } } ], "setting": { "speed": { "channel": "30" } } } }
上面是配置SqlServer到SqlServer同步的配置檔案
執行任務
python datax.py ../job/sqlserverTosqlserver.json