1. 程式人生 > >基於OGG和Datahub的阿里流計算Flink平臺簡介

基於OGG和Datahub的阿里流計算Flink平臺簡介

平臺簡介

在傳統的資料處理流程中,總是先收集資料,然後再把資料放到DB等到需要的時候再進行相關處理,這種模式不適合某些需要實時資料的應用平臺,例如稅務的實時申報率,這種採用MR等離線處理並不能很好的解決問題,於是新的資料計算結構:Flink流計算應時而生,它可以對大規模流動資料在不斷變化的運轉過程中實時的進行分析,加工並把結果傳送到下一節點

這裡依照阿里流計算平臺進行相關知識的分享和探討

流程鏈路

流程點介紹

Ø  源端資料庫:oraclemysql等支援ogg作為源端的資料庫

Ø  Datahub控制檯:通過安裝在Adapter裡的datahub

外掛讀取trail日誌實時把資料傳送到Datahub控制檯,是一個實時抽取資料的轉換站

Ø  Stream加工平臺:這裡可以把Datahub控制檯裡的表定義為源端表,通過開發job裡的加工過程把加工後的實時資料傳送到目標資料庫,是一個小計算量短加工平臺

Ø  應用層資料庫:直接面向前端應用的極速查詢資料庫

版本控制

目前由於datahub需要最新外掛version-2.0.2,這個版本對OGG,JDK,Adapter要求都很嚴格,不按照版本會產生很多問題,比如datahub外掛裝在adapter高版本里會報error:no xx.so檔案,太高版本的OGG傳過來的trail檔案Adapter無法解析,而JDK不匹配的話會報java的錯。

故這四個的版本請嚴格控制為:

                                            Datahub               2.0.2

                                            JDK                      1.8

                                            OGG&Adapter     12.1

 

 

tips:限於篇幅,關於詳細的安裝配置和使用場景可以評論私信我