如何用Flink把資料sink到kafka多個(成百上千)topic中

需求與場景

上游某業務資料量特別大，進入到kafka一個topic中(當然了這個topic的partition數必然多，有人肯定疑問為什麼非要把如此龐大的資料寫入到1個topic裡，歷史留下的問題，現狀就是如此龐大的資料集中在一個topic裡)。這就需要根據一些業務規則把這個大資料量的topic資料分發到多個(成百上千)topic中，以便下游的多個job去消費自己topic的資料，這樣上下游之間的耦合性就降低了，也讓下游的job輕鬆了很多，下游的job只處理屬於自己的資料，避免成百上千的job都去消費那個大資料量的topic。資料被分發之後再讓下游job去處理對網路頻寬、程式效能、演算法複雜性都有好處。

這樣一來就需要這麼一個分發程式，把上下游job連線起來。

分析與思考

Flink中有connect運算元，可以連線2個流，在這裡1個就是上面資料量龐大的業務資料流，另外1個就是規則流(或者叫做配置流，也就是決定根據什麼樣的規則分發業務資料)
但是問題來了，根據規則分發好了，如何把這些資料sink到kafka多個(成百上千)topic中呢？
首先想到的就是新增多個sink，每分發到一個topic，就多新增1個addSink操作，這對於如果只是分發到2、3個topic適用的，我看了一下專案中有時候需要把資料sink到2個topic中，同事中就有人添加了2個sink，完全ok，但是在這裡要分發到幾十個、成百上千個topic，就肯定不現實了，不需要解釋吧。
sink到kafka中，其實本質上就是用KafkaProducer往kafka寫資料，那麼不知道有沒有想起來，用KafkaProducer寫資料的時候api是怎樣的，public Future<RecordMetadata> send(ProducerRecord<K, V> record); 顯然這裡需要一個ProducerRecord物件，再看如何例項化ProducerRecord物件，public ProducerRecord(String topic, V value), 也就是說每一個message都指定topic，標明是寫到哪一個topic的，而不必說我們要寫入10個不同的topic中，我們就一定new 10 個 KafkaProducer
到上面這一步，如果懂的人就會豁然開朗了，我本來想著可能需要稍微改改flink-connector-kafka實現，讓我驚喜的是flink-connector-kafka已經留有了介面，只要實現KeyedSerializationSchema這個介面的String getTargetTopic(T element);就行

程式碼實現

先看一下KeyedSerializationSchema介面的定義，我們知道kafka中儲存的都是byte[],所以由我們自定義序列化key、value

/**
 * The serialization schema describes how to turn a data object into a different serialized
 * representation. Most data sinks (for example Apache Kafka) require the data to be handed
 * to them in a specific format (for example as byte strings).
 *
 * @param <T> The type to be serialized.
 */
@PublicEvolving
public interface KeyedSerializationSchema<T> extends Serializable {

    /**
     * Serializes the key of the incoming element to a byte array
     * This method might return null if no key is available.
     *
     * @param element The incoming element to be serialized
     * @return the key of the element as a byte array
     */
    byte[] serializeKey(T element);

    /**
     * Serializes the value of the incoming element to a byte array.
     *
     * @param element The incoming element to be serialized
     * @return the value of the element as a byte array
     */
    byte[] serializeValue(T element);

    /**
     * Optional method to determine the target topic for the element.
     *
     * @param element Incoming element to determine the target topic from
     * @return null or the target topic
     */
    String getTargetTopic(T element);
}

重點來了，實現這個String getTargetTopic(T element);就可以決定這個message寫入到哪個topic裡。

於是我們可以這麼做，拿到業務資料(我們用的是json格式)，然後根據規則分發的時候，就在這條json格式的業務資料裡新增一個寫到哪個topic的欄位，比如說叫@topic，
然後我們實現getTargetTopic()方法的時候，從業務資料中取出@topic欄位就行了。

實現如下(這裡我是用scala寫的，java類似)：

class OverridingTopicSchema extends KeyedSerializationSchema[Map[String, Any]] {

  override def serializeKey(element: Map[String, Any]): Array[Byte] = null

  override def serializeValue(element: Map[String, Any]): Array[Byte] = JsonTool.encode(element) //這裡用JsonTool指代json序列化的工具類

  /**
    * kafka message value 根據 @topic欄位 決定 往哪個topic寫
    * @param element
    * @return
    */
  override def getTargetTopic(element: Map[String, Any]): String = {
    if (element != null && element.contains(“@topic”)) {
      element(“@topic”).toString
    } else null
  }
}

之後在new FlinkKafkaProducer物件的時候把上面我們實現的這個OverridingTopicSchema傳進去就行了。

public FlinkKafkaProducer(
        String defaultTopicId,  // 如果message沒有指定寫往哪個topic，就寫入這個預設的topic
        KeyedSerializationSchema<IN> serializationSchema,//傳入我們自定義的OverridingTopicSchema
        Properties producerConfig,
        Optional<FlinkKafkaPartitioner<IN>> customPartitioner,
        FlinkKafkaProducer.Semantic semantic,
        int kafkaProducersPoolSize) {
                    //....
}

至此，我們只需要把上面new 出來的FlinkKafkaProducer新增到addSink中就能實現把資料sink到kafka多個(成百上千)topic中。

下面簡單追蹤一下FlinkKafkaProducer原始碼，看看flink-connector-kafka是如何將我們自定義的KeyedSerializationSchema作用於最終的ProducerRecord

        /**  這個是使用者可自定義的序列化實現
     * (Serializable) SerializationSchema for turning objects used with Flink into.
     * byte[] for Kafka.
     */
    private final KeyedSerializationSchema<IN> schema;

        @Override
    public void invoke(FlinkKafkaProducer.KafkaTransactionState transaction, IN next, Context context) throws FlinkKafkaException {
        checkErroneous();
// 呼叫我們自己的實現的schema序列化message中的key
        byte[] serializedKey = schema.serializeKey(next);

// 呼叫我們自己的實現的schema序列化message中的value
        byte[] serializedValue = schema.serializeValue(next);
                
// 呼叫我們自己的實現的schema取出寫往哪個topic
        String targetTopic = schema.getTargetTopic(next);

        if (targetTopic == null) {
// 如果沒有指定寫往哪個topic，就寫往預設的topic
// 這個預設的topic是我們new  FlinkKafkaProducer時候作為第一個構造引數傳入（見上面的註釋）
            targetTopic = defaultTopicId;
        }

        Long timestamp = null;
        if (this.writeTimestampToKafka) {
            timestamp = context.timestamp();
        }
        ProducerRecord<byte[], byte[]> record;
        int[] partitions = topicPartitionsMap.get(targetTopic);
        if (null == partitions) {
            partitions = getPartitionsByTopic(targetTopic, transaction.producer);
            topicPartitionsMap.put(targetTopic, partitions);
        }
        if (flinkKafkaPartitioner != null) {
            record = new ProducerRecord<>(
                targetTopic, // 這裡看到了我們上面一開始分析的ProducerRecord
                flinkKafkaPartitioner.partition(next, serializedKey, serializedValue, targetTopic, partitions),
                timestamp,
                serializedKey,
                serializedValue);
        } else {
            record = new ProducerRecord<>(targetTopic, null, timestamp, serializedKey, serializedValue);
        }
        pendingRecords.incrementAndGet();
        transaction.producer.send(record, callback);
    } 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    如何用Flink把資料sink到kafka多個(成百上千)topic中
      需求與場景
上游某業務資料量特別大，進入到kafka一個topic中(當然了這個topic的partition數必然多，有人肯定疑問為什麼非要把如此龐大的資料寫入到1個topic裡，歷史留下的問題，現狀就是如此龐大的資料集中在一個topic裡)。這就需要根據一些業務規則把這個大資料量的topic資料分發到多個 

  
 

    

    
    怎樣用批處理來執行多個exe文件
      asc   pri   line   views   bat文件   tro   ext   sta   each   
        怎樣用批處理來運行多個exe文件



@echo off
start  *****.exe
start  *****.exe
start  *****.exe
star 

  
 

    

    
    用Python指令碼自動運營多個自媒體平臺，不寫稿坐等收錢，只告訴你原理
       
 
 使用此方法最低成本不超過120元/年，年收入根據你所選擇垂直行業和帳號多少以及哪些平臺來決定 
 我所說的最低成本是針對我而言來說的，辛苦點的可以做到0成本操作，喜歡冒險的總投入不會超過5000塊錢 
  
 首先第一步就是你要有自媒體帳號，帳號和平臺不限，根據你對平臺的理解來自行選擇使用那個平臺， 

  
 

    

    
    [資料共享] 多個創意移動電源例項教程
       
 
 Vicor是一家專注於電源技術研發的美國電源廠商，廣泛應用於企業級和高效能運算機、電信和網路基礎設施、工業裝置與自動化、交通、航空、國防電子等市場。總之，Vicor公司主要致力於電源模組的設計。說到電源模組，我們是不是可以將平時的移動電源模組話呢，下面給大家分享幾個移動電源方面的設計。 
 &nbs 

  
 

    

    
    用AnimatorSet類來編排多個動畫
       
 
  轉載自：http://www.2cto.com/kf/201207/139085.html 
   
  用AnimatorSet類來編排多個動畫 
  在很多場景中，一個動畫的播放要依賴與另一個動畫的開始或結束。Android系統讓你把這些相互依賴的動畫繫結到一個AnimatorSet物件中，以 

  
 

    

    
    在node中介軟體（微服務）架構中，用一個node去部署多個專案比較好，還是一個專案對應一個node比較好？
      
							
							
							第一種： 一個專案對應一個node服務；
優點：前端跟node也是可以獨立開發，降低耦合，也可單獨部署；
缺點：一個專案對應一個node，專案多的話，維護不方便；
第二種：一個node下，部署多個專案，可以以這個node作為底盤，在點選進入專案時，讓其載入該專案 

  
 

    

    
    用單層感知器實現多個神經元的分類
      
								
								            
						
                訓練樣本矩陣：

P = [0.1  0.7  0.8  0.8  1.0  0.3  0.0  –0.3  –0.5  –1.5;

    1.2  1.8  1.6  0.6  0.8  0.5  

  
 

    

    
    用htaccess url重寫實現多個二級域名對映同一個空間
      
猜你想用這樣的域名訪問你的網站？
blog.uacool.com    bbs.uacool.com   
home.uacool.com    game.uacool.com
但是沒錢買太多的主機空間，我們只有一個 虛擬主機空間 還有一個域名，怎麼辦？ 相信很多人只好用頂級域名訪問空間的二級目錄 比如：w 

  
 

    

    
    用shell指令碼從多個不相關的目錄中遞迴獲取所有影象的路徑
       
 
  
  
 get_imagelist.sh原始碼： 
 dir_list=(                                                               
"/opt/win/tim.zhong/database/face_dataset/image 

  
 

    

    
    SQL用子查詢結果更新多個欄位
      
								
								            
						
                
作者：iamlasong
要求：表格的內容需要變更，變更的內容放在一個臨時表中，用SQL語句更新正式表中多個欄位。
如果更新一個欄位，直接用欄位名=子查詢就可以了，多個欄位更新，將欄位在括號中並列寫出 

  
 

    

    
    linux  用 grep 查詢單個或多個字串（關鍵字）
      
                1、單個字串進行查詢：1、查詢當前目錄檔名中的字串：    grep  字串  檔名2、查詢某個檔案中字串，並輸出行號：grep -n 字串 檔名3、查詢當前目錄（包含子目錄）的字串：grep -r 字串 *4、查詢當前目錄（包含子目錄）的字串，並輸出行號：grep -rn  

  
 

    

    
    Linux中grep命令，用或的關係查詢多個字串，正則表示式基礎說明
      
								
								            
						
                
使用 grep 'word1|word2' 檔名  這樣的命令是不對的！
應該使用如下的命令：1，grep -E 'word1|word2' 檔名
2，egrep 'word1|word2' 檔名
3 

  
 

    

    
    在mySQl中，SQL語言允許使用萬用字元進行字串匹配的操作，其中“%”不能表示（）。A.0個字元B.一個字元C.多個字元D.搜尋關鍵字中包含字元“%”
      
							
							
							加粗樣式@TOC
歡迎使用Markdown編輯器
你好！ 這是你第一次使用 Markdown編輯器 所展示的歡迎頁。如果你想學習如何使用Markdown編輯器, 可以仔細閱讀這篇文章，瞭解一下Markdown的基本語法知識。
新的改變
我們對Markdown編輯 

  
 

    

    
    用Nginx配置二級域名多個微信服務應用等
      
							
							
							可以解決的問題：


一臺伺服器可以起多個tomcat通過不同的埠，共同監聽80埠對映到不通的域名上。
微信伺服器多個應用，需要多個域名的，可以通過nginx進行轉發，對不通的伺服器進行微信授權。


nginx資料夾（就是nginx.conf所在位置）同級建一 

  
 

    

    
    c#匯出資料到多個sheet表
      
                region 匯出到excel多sheetprivatevoid ToExcelSheet(DataSet ds,string sheetName)        {            int testnum = ds.Tables.Count-1;            

  
 

    

    
    用批處理來啟動多個程式
      
拿我們玩QQ來說，可能你想上三個號，那麼我們可以寫個批處理，來實現快速開啟三個QQ程式，免去了程式的每次單個點選
開啟記事本，在裡面寫上下面這段程式碼：
start "QQ" "C:\ProgramFiles\Tencent\QQ2009\Bin\QQ.exe" &
start "QQ" "C:\P 

  
 

    

    
    sql同一張表統計資料生成多個統計列
      
                
create view parkingcloudjournalstat as  select enterdate,   
sum(case when parkingId = 'GhW4Hmsu' then 1 else 0 end) as "GhW4Hmsu",  
sum 

  
 

    

    
    用一個欄位儲存多個圖片或檔案路徑
      
                有時我們表中的一個產品記錄，可能沒有圖片，也可能有一個或多個圖片，怎麼儲存這些資訊呢？難道用10個或更多的欄位來儲存，但大多數行它們都是空的呀，怎麼辦？  利用Windows下檔名中不能用的非法字元，Url中不能用的非法字元，在資料庫中用一個欄位中儲存全部圖片路徑。  （1） 

  
 

    

    
    怎麼把PHP中複選框選中的多個值寫入到資料庫中
      
                
  今天提交表單數到據庫時，CheckBox選中的值不能夠全部提交，浪費了很長時間，最後解決方法如下：

<!DOCTYPE html>
<html>
<head>
    <meta http-equiv="Content-Typ 

  
 

    

    
    SQL更新資料時多個欄位時合在一起的寫法
      
								
								            
						
                
作者：iamlaosong
Oracle正常更新一個表中多個欄位時，欄位是分開寫的，例如：

update tb_county t
   set t.prov_name = '安徽', t.city_