大資料小白DataX-Web——先跑起來
大致看了下大資料用到的技術棧,兩個字太多,要快速入門,可謂困難重重,經過一段時間的摸索,先從ETL入手,比較符合傳統開發人員轉型大資料攻城獅。現在軟體行業這麼內卷,筒子們轉型大資料開發吧。此次介紹的ETL工具很輕量級,入門容易,大廠背書,皮實耐操。
簡介
Datax-web基於datax,增加了web介面
Datax執行時依賴python環境,預設通過命令列執行
Datax可以在各種資料來源間同步資料,配置檔案基於一個json檔案,包括reader和writer
Datax-web把Datax基於命令列任務通過java程式碼串聯了起來,並提供了視覺化的任務管理
打包或者直接下載安裝包
datax下載程式碼,本地打包
datax-web下載程式碼,本地打包
datax-admin-dev2.1.3打包之後有問題,MYSQL
前端程式碼包含在admin模組的static中
部署
依賴於jdk,python,mysql
1 解壓設定環境變數:
DATAX_HOME=/home/docker/datax-web/datax
JAVA_HOME=/home/docker/datax-web/jdk1.8.0_201
export JAVA_HOME DATAX_HOME
2 安裝datax-web
互動式安裝
/home/docker/datax-web/datax-web/bin/install.sh
修改資料庫配置:
/home/docker/datax-web/datax-web/modules/datax-admin/conf/ application.yml
3 啟動應用
/home/docker/datax-web/datax-web/bin/start-all.sh
包括兩個應用:datax-admin, datax-executor
一個控制器,一個執行器
4 檢視
Ps –ef|grep datax
檢視日誌確認真正起來:
Modules/datax-admin/logs
Modules/datax-executor/logs
5 測試
http://13.12.4.15:9527/index.html
admin/123456
資料同步任務
預設支援各種資料庫型別的資料來源之間傳遞資料,包括全量和增量,datax適合不太頻繁的任務排程,太頻繁會有各種問題,注意使用場合!!!
對於ftp,txt等其他資料同步任務,支援直接配置json配置檔案的方式啟動任務!!
配置專案:
新增資料來源:
執行器預設自動註冊到排程中心,也可以手動配置:
任務管理,管理各種資料同步任務,包含配置檔案:
可以手工執行任務,檢視任務執行情況,檢視任務日誌:
日誌管理:
檢視詳細datax執行日誌:
任務構建、任務批量構建
提供了視覺化的任務配置功能
Datax任務模板,快速建立任務
執行問題
將重新打包的Datax上傳後,使用datax-web重新執行任務時出現了
[
AnalysisStatistics.analysisStatisticsLog-53]com.alibaba.datax.common.exception.DataXException: Code:[Framework-03], Description:[DataX引擎配置錯誤,該問題通常是由於DataX安裝錯誤引起,請聯絡您的運維解決 .]. - 在有總bps限速條件下,單個channel的bps值不能為空,也不能為非正數。
datax任務json配置檔案中增加配置: