1. 程式人生 > 其它 >大資料小白DataX-Web——先跑起來

大資料小白DataX-Web——先跑起來

大致看了下大資料用到的技術棧,兩個字太多,要快速入門,可謂困難重重,經過一段時間的摸索,先從ETL入手,比較符合傳統開發人員轉型大資料攻城獅。現在軟體行業這麼內卷,筒子們轉型大資料開發吧。此次介紹的ETL工具很輕量級,入門容易,大廠背書,皮實耐操。

簡介

Datax-web基於datax,增加了web介面

Datax執行時依賴python環境,預設通過命令列執行

Datax可以在各種資料來源間同步資料,配置檔案基於一個json檔案,包括reader和writer

Datax-web把Datax基於命令列任務通過java程式碼串聯了起來,並提供了視覺化的任務管理

打包或者直接下載安裝包

datax下載程式碼,本地打包

datax-web下載程式碼,本地打包

datax-admin-dev2.1.3打包之後有問題,MYSQL

前端程式碼包含在admin模組的static中

 

部署

依賴於jdk,python,mysql

1 解壓設定環境變數:

DATAX_HOME=/home/docker/datax-web/datax

JAVA_HOME=/home/docker/datax-web/jdk1.8.0_201

export JAVA_HOME DATAX_HOME

2 安裝datax-web

互動式安裝

/home/docker/datax-web/datax-web/bin/install.sh

修改資料庫配置:

/home/docker/datax-web/datax-web/modules/datax-admin/conf/ application.yml

3 啟動應用

/home/docker/datax-web/datax-web/bin/start-all.sh

包括兩個應用:datax-admin, datax-executor

一個控制器,一個執行器

4 檢視

Ps –ef|grep datax

檢視日誌確認真正起來:

Modules/datax-admin/logs

Modules/datax-executor/logs

5 測試

http://13.12.4.15:9527/index.html

admin/123456

資料同步任務

預設支援各種資料庫型別的資料來源之間傳遞資料,包括全量和增量,datax適合不太頻繁的任務排程,太頻繁會有各種問題,注意使用場合!!!

對於ftp,txt等其他資料同步任務,支援直接配置json配置檔案的方式啟動任務!!

配置專案:

新增資料來源:

執行器預設自動註冊到排程中心,也可以手動配置:

任務管理,管理各種資料同步任務,包含配置檔案:

可以手工執行任務,檢視任務執行情況,檢視任務日誌:

日誌管理:

檢視詳細datax執行日誌:

任務構建、任務批量構建

提供了視覺化的任務配置功能

Datax任務模板,快速建立任務

執行問題

將重新打包的Datax上傳後,使用datax-web重新執行任務時出現了

[

AnalysisStatistics.analysisStatisticsLog-53]com.alibaba.datax.common.exception.DataXException: Code:[Framework-03], Description:[DataX引擎配置錯誤,該問題通常是由於DataX安裝錯誤引起,請聯絡您的運維解決 .]. - 在有總bps限速條件下,單個channel的bps值不能為空,也不能為非正數。

 

datax任務json配置檔案中增加配置:

  

任務中必須包含使用者名稱密碼,且是加密的,同步通道數和引數必須制定,否則用預設配置,傳不動,