資料對接-ETL之StreamSet學習之旅一
目錄
StreamSet介紹
StreamSets是一個側重資料整合、資料加工流程構建的平臺,也是一個開源的產品。通過StreamSets,使用者可以方便的接入不同的資料來源,並且完成資料加工流程的構建。
SteamSets有視覺化的資料流構建工具,並且能夠對執行態的資料應用進行監控。該應用更側重於資料的接入和資料流的構建、監控和管理
StreamSets資料操作平臺是唯一旨在簡化如何構建,執行和操作企業資料流的平臺。構建在開源核心上,開發人員可以輕鬆構建批處理和流式資料流,而且程式碼少,而運營商使用雲本地產品將數十或數百個資料流聚合到拓撲中,並通過實時可見性和效能控制集中管理。
根據StreamSet的介紹,我司準備引進其作為一款Api對接平臺工具,與第三方的資料來源進行對接,繼而把資料流入到我司的SAAS平臺。
StreamSet安裝
安裝StreamSet有多重方式,因為其是開源的專案,因此理論上你可以下載原始碼,直接編譯安裝,這裡介紹兩種方式:
1. RPM安裝
這裡以Centos7.5為例進行安裝。
導航至 https://streamsets.com/opensource ,按圖示選擇下載。
這個大傢伙足足有5Gb,因此準備好足夠的空間和耐心。
下載完成後,在該檔案所在目錄下執行如下命令:
tar xf streamsets-datacollector-<version>-<operating_system>-all-rpms.tar
解壓好後,進入解壓的目錄內執行
yum localinstall streamsets*.rpm
systemctl start sdc
為了能在外部訪問,檢查下Centos的防火牆策略,允許需要的端口出去,這裡簡單粗暴的關閉防火牆:
systemctl stop firewalld.service
訪問之:
http://<hostname>:18630/
預設賬號和密碼均為admin
2. Docker映象安裝
docker映象官方已釋出,因此步驟簡單很多。
docker pull streamsets/datacollector
docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector dc
儲存
映象安裝需要特別注意儲存路徑的問題,你需要把/data目錄映射出來,否則建立的管道無法持久化。
全部安裝的省略這些。
應用
StreamSet有視覺化流程編輯介面,並且包括50種資料來源、44種資料操作、46種目的地。
對於Streamsets來說,最重要的概念就是資料來源(Origins)、操作(Processors)、目的地(Destinations)。建立一個Pipelines管道配置也基本是這三個方面。
StreamSet支援的源有Kafka、HTTP、UDP、JDBC、HDFS等;Processors可以實現對每個欄位的過濾、更改、編碼、聚合等操作;Destinations跟Origins差不多,可以寫入Kafka、Flume、JDBC、HDFS、Redis等。
甚至可以直接建立HTTP微服務Api,以供第三方呼叫,強大的功能吸引我們繼續去探索。
在此我向大家推薦一個微服務架構學習交流群。交流學習群號:864759589 裡面會分享一些資深架構師錄製的視訊錄影:高併發、高效能、分散式、微服務架構的原理,分散式架構等這些成為架構師必備的知識體系。