如何使用StreamSets從MySQL增量更新資料到Hive
阿新 • • 發佈:2018-12-19
如何使用StreamSets從MySQL增量更新資料到Hive
標籤(空格分隔): 大資料平臺構建
一: 編寫目的
二: 平臺所用版本介紹
三: 配置步驟
四: 測試應用
一: 編寫目的
通過StreamSets實現資料採集,在實際生產中需要實時捕獲MySQL、Oracle等其他資料來源的變化資料(簡稱CDC)將變化資料實時的寫入大資料平臺的Hive、HDFS、HBase、Solr、Elasticserach等。該文將介紹使用StreamSets通過JDBC的方式實時抽取增量資料到Hive。
二: 平臺所使用版本
cdh 版本: CDH5.14.4 StreamSets 版本: StreamSets 3.5.2 在 大資料平臺 CDH5.14.4 上面如何整合安裝不在介紹 參考flyfish的部落格 <<在CDH5.14.4 中安裝StreamSets與案例執行>>
三:配置步驟
3.1 建立 Pipelines
在CDH的 主節點上面 建立 目錄
mkdir -p /tmp/mysql_to_hive