1. 程式人生 > 其它 >datax大資料了同步工具

datax大資料了同步工具

安裝外掛datax wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

需要基礎環境

jdk8以上

python2或者3

 

1.資料量少推薦使用streamset 介面化 配置簡單

配置資料來源和寫入淵和源資料表和寫入表即可,之間的欄位關係streamsets自動匹配,區分大小寫。

 

2.最近做OTC專案 底層的一些資料需要同步 涉及量比較大 目前最多一次是1.3億,同步只能在晚上同步 用streamset同步耗時在15小時左右。

伺服器配置64g記憶體。單執行緒單task所以比較慢。

每個工具都有適用的場景。

 

 

 

 

 這個是我在我們公司伺服器做的測試結果,執行任務的時候沒有加記憶體配置,應該伺服器硬體算是低了了。雖然是8G可是可用記憶體也就沒多少。

可以看到效果還是可觀的。3400萬在44分鐘。如果部署到64記憶體,啟動任務再配置8G記憶體,速度應該可以在半小時內。

 

{
"job": {
        "content": [
            {
                "reader": {
                    "name": "sqlserverreader", 
                    "parameter": {
                        
"connection": [ { "jdbcUrl": ["jdbc:sqlserver://ip;DatabaseName=JNJ_SelfCare_Test"], "querySql": ["select * from T_JNJ_SalesData_RPD_Month"] } ],
"password": "", "username": "" } }, "writer": { "name": "sqlserverwriter", "parameter": { "column": ["*"], "connection": [ { "jdbcUrl": "jdbc:sqlserver://ip;DatabaseName=JNJ_SelfCare_Test", "table": ["T_JNJ_SalesData_RPD_Month_0418"] } ], "password": "", "username": "" } } } ], "setting": { "speed": { "channel": "30" } } } }

 

上面是配置SqlServer到SqlServer同步的配置檔案

執行任務

python datax.py ../job/sqlserverTosqlserver.json