1. 程式人生 > >資料對接-ETL之StreamSet學習之旅一

資料對接-ETL之StreamSet學習之旅一

目錄

StreamSet介紹

StreamSets是一個側重資料整合、資料加工流程構建的平臺,也是一個開源的產品。通過StreamSets,使用者可以方便的接入不同的資料來源,並且完成資料加工流程的構建。
SteamSets有視覺化的資料流構建工具,並且能夠對執行態的資料應用進行監控。該應用更側重於資料的接入和資料流的構建、監控和管理
StreamSets資料操作平臺是唯一旨在簡化如何構建,執行和操作企業資料流的平臺。構建在開源核心上,開發人員可以輕鬆構建批處理和流式資料流,而且程式碼少,而運營商使用雲本地產品將數十或數百個資料流聚合到拓撲中,並通過實時可見性和效能控制集中管理。

根據StreamSet的介紹,我司準備引進其作為一款Api對接平臺工具,與第三方的資料來源進行對接,繼而把資料流入到我司的SAAS平臺。


在這裡插入圖片描述


StreamSet安裝

安裝StreamSet有多重方式,因為其是開源的專案,因此理論上你可以下載原始碼,直接編譯安裝,這裡介紹兩種方式:

1. RPM安裝

這裡以Centos7.5為例進行安裝。

導航至 https://streamsets.com/opensource ,按圖示選擇下載。
在這裡插入圖片描述
這個大傢伙足足有5Gb,因此準備好足夠的空間和耐心。
下載完成後,在該檔案所在目錄下執行如下命令:

tar
xf streamsets-datacollector-<version>-<operating_system>-all-rpms.tar

解壓好後,進入解壓的目錄內執行

yum localinstall streamsets*.rpm
systemctl start sdc

為了能在外部訪問,檢查下Centos的防火牆策略,允許需要的端口出去,這裡簡單粗暴的關閉防火牆:

systemctl stop firewalld.service

訪問之:

http://<hostname>:18630/
預設賬號和密碼均為admin

2. Docker映象安裝

docker映象官方已釋出,因此步驟簡單很多。

docker pull streamsets/datacollector
docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector dc

在這裡插入圖片描述

儲存

映象安裝需要特別注意儲存路徑的問題,你需要把/data目錄映射出來,否則建立的管道無法持久化。
全部安裝的省略這些。

應用

StreamSet有視覺化流程編輯介面,並且包括50種資料來源、44種資料操作、46種目的地。
對於Streamsets來說,最重要的概念就是資料來源(Origins)、操作(Processors)、目的地(Destinations)。建立一個Pipelines管道配置也基本是這三個方面。
StreamSet支援的源有Kafka、HTTP、UDP、JDBC、HDFS等;Processors可以實現對每個欄位的過濾、更改、編碼、聚合等操作;Destinations跟Origins差不多,可以寫入Kafka、Flume、JDBC、HDFS、Redis等。
甚至可以直接建立HTTP微服務Api,以供第三方呼叫,強大的功能吸引我們繼續去探索。


在此我向大家推薦一個微服務架構學習交流群。交流學習群號:864759589 裡面會分享一些資深架構師錄製的視訊錄影:高併發、高效能、分散式、微服務架構的原理,分散式架構等這些成為架構師必備的知識體系。
在這裡插入圖片描述


引用連結

  1. 口袋程式碼倉庫
  2. 線上計算器
  3. 本節原始碼:github