1. 程式人生 > >如何使用StreamSets從MySQL增量更新資料到Hive

如何使用StreamSets從MySQL增量更新資料到Hive

如何使用StreamSets從MySQL增量更新資料到Hive

標籤(空格分隔): 大資料平臺構建


一: 編寫目的
二: 平臺所用版本介紹
三: 配置步驟
四: 測試應用


一: 編寫目的

通過StreamSets實現資料採集,在實際生產中需要實時捕獲MySQL、Oracle等其他資料來源的變化資料(簡稱CDC)將變化資料實時的寫入大資料平臺的Hive、HDFS、HBase、Solr、Elasticserach等。該文將介紹使用StreamSets通過JDBC的方式實時抽取增量資料到Hive。

二: 平臺所使用版本

cdh 版本:
        CDH5.14.4 
StreamSets 版本:
        StreamSets 3.5.2

在 大資料平臺 CDH5.14.4 上面如何整合安裝不在介紹 參考flyfish的部落格
<<在CDH5.14.4 中安裝StreamSets與案例執行>>

三:配置步驟

3.1 建立 Pipelines

image_1cv1uuqrr1bquug41v35cnm1dchp.png-294.6kB

image_1cv1v0453qra133q737117714rv16.png-294.6kB

image_1cv1v2fsl12gpujjdb8112vbvh1j.png-352.7kB

image_1cv1v45kf1dveo85g60r9homt9.png-359kB

在CDH的 主節點上面 建立 目錄
mkdir -p /tmp/mysql_to_hive

image_1cv1v6fqf1jdn1eki15e2165f1p6jm.png-169.1kB

3.2 新增 jdbc 的查詢者

image_1cv1vj8o04umhupeljfle14na13.png-48.5kB

image_1cv1vqvf71ga9loncbt12dcfc420.png-665.6kB

image_1cv1vs29k5q51et1uas15chtam2d.png-331.1kB

image_1cv1vu4coj0q1t6t2j6881sc62q.png-347.2kB

3.3 檢視檢查

image_1cv200meg1ti9hriq9bj4gome3n.png-679.9kB

image_1cv201gsogh8no0al1sag1ok747.png-177.5kB

image_1cv206a5b1fgb1voo19o51bm2kaf4k.png-300.9kB

3.4 新增Hive Metadata

image_1cv20btm51ua71qov32k11671gaj51.png-580.4kB

image_1cv20cui6ttn1nqorpck6811469.png-354.6kB

image_1cv20do4d79m1k1g1oom5p78dap.png-326.4kB

3.5 將Hive Metadata 輸出到 HiveMetastore

image_1cv20ii0suq1fed13d1hem1jcp9.png-554.2kB

image_1cv20ofei6tna1qb4ctpp1n5u16.png-626.9kB

image_1cv20r2iotoa1shusehk3j8lq1j.png-437.3kB

image_1cv20s159p9g1tkd1o6pvc0ams20.png-485.1kB

image_1cv20st9o1cgrhmum34pjn1abj2d.png-508.6kB

image_1cv21032k1t0n14ccmtsga11q9a2q.png-613.8kB


3.6 整個流程類預覽

image_1cv215hgrmq611ir1dhmd1a61d9.png-691.9kB

image_1cv219hll13in1vmd1ttb1eg0tkgm.png-569.5kB

四:測試應用

image_1cv21e4e4143ho3kkcl1pkegf29.png-1045kB

image_1cv21f5o0ck71qeo1np31uec18bo9.png-533.3kB

image_1cv21hc6e13jd3i81ugu1tpu1ev0m.png-225.1kB

image_1cv21idkivq7ni1q7hnf9sra1j.png-403kB