Storm學習筆記（6）- Stream Grouping概述

阿新 • • 發佈：2019-01-10

文章目錄

Shuffle grouping
FieldGrouping
AllGrouping

定義topology 的一部分是為每個bolt 指定它應該接收哪些Stream作為輸入。Stream Grouping定義瞭如何在bolt的任務之間劃分該Stream。

Storm中有8個內建的流分組，您可以通過實現 CustomStreamGrouping來實現自定義流分組:

Shuffle grouping:元組(Tuples )在bolt的任務中是隨機分佈的，這樣每個bolt都可以保證得到相等數量的元組。

Fields grouping:根據分組中指定的欄位對流進行分割槽。例如，如果流按“user-id”欄位分組，那麼具有相同“user-id”的元組將始終指向相同的任務，但是具有不同“user-id”的元組可能指向不同的任務。
Partial Key grouping:流按照分組中指定的欄位進行分割槽，就像欄位分組一樣，但是在兩個下游bolt之間進行負載平衡，當傳入資料傾斜時，可以更好地利用資源。本文很好地解釋了它的工作原理及其優點。
All grouping: 跨所有bolt任務複製流。小心使用這個分組。
Global grouping: 整個流只用於bolt的一個任務。具體來說，它使用id最低的任務。

None grouping:此分組指定您不關心流如何分組。目前，沒有分組等同於洗牌分組。最終，Storm將按下沒有分組的bolt，以便在與bolt相同的執行緒中執行，或者在可能的情況下，按下它們訂閱的bolt。
Direct grouping: 這是一種特殊的分組。以這種方式分組的流意味著元組的生產者將決定使用者的哪個任務將接收這個元組。直接分組只能在已宣告為直接流的流上宣告。向直接流發出的元組必須使用[emitDirect](javadocs/org/apache/storm/task/OutputCollector)之一發出。方法。bolt可以通過使用提供的TopologyContext或跟蹤OutputCollector中emit方法的輸出(該方法返回元組傳送給它的任務id)來獲得其使用者的任務id。

Local or shuffle grouping:如果目標bolt在同一工作程序中有一個或多個任務，元組將被洗牌到那些程序內任務。否則，這就像一個普通的洗牌分組。

Shuffle grouping

元組(Tuples )在bolt的任務中是隨機分佈的，這樣每個bolt都可以保證得到相等數量的元組。

import org.apache.storm.Config;
import org.apache.storm.StormSubmitter;
import org.apache.storm.spout.SpoutOutputCollector;
import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.TopologyBuilder;
import org.apache.storm.topology.base.BaseRichBolt;
import org.apache.storm.topology.base.BaseRichSpout;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Tuple;
import org.apache.storm.tuple.Values;
import org.apache.storm.utils.Utils;

import java.util.Map;

/**
 * 使用Storm實現積累求和的操作
 */
public class ClusterSumShuffleGroupingStormTopology {


    /**
     * Spout需要繼承BaseRichSpout
     * 資料來源需要產生資料併發射
     */
    public static class DataSourceSpout extends BaseRichSpout {

        private SpoutOutputCollector collector;
        /**
         * 初始化方法，只會被呼叫一次
         * @param conf  配置引數
         * @param context  上下文
         * @param collector 資料發射器
         */
        public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
            this.collector = collector;
        }

        int number = 0;

        /**
         * 會產生資料，在生產上肯定是從訊息佇列中獲取資料
         *
         * 這個方法是一個死迴圈，會一直不停的執行
         */
        public void nextTuple() {
            this.collector.emit(new Values(++number));

            System.out.println("Spout: " + number);

            // 防止資料產生太快
            Utils.sleep(1000);

        }

        /**
         * 宣告輸出欄位
         * @param declarer
         */
        public void declareOutputFields(OutputFieldsDeclarer declarer) {
            declarer.declare(new Fields("num"));
        }
    }


    /**
     * 資料的累積求和Bolt：接收資料並處理
     */
    public static class SumBolt extends BaseRichBolt {

        /**
         * 初始化方法，會被執行一次
         * @param stormConf
         * @param context
         * @param collector
         */
        public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {

        }

        int sum = 0;

        /**
         * 其實也是一個死迴圈，職責：獲取Spout傳送過來的資料
         * @param input
         */
        public void execute(Tuple input) {

            // Bolt中獲取值可以根據index獲取，也可以根據上一個環節中定義的field的名稱獲取(建議使用該方式)
            Integer value = input.getIntegerByField("num");
            sum += value;

            System.out.println("Bolt: sum = [" + sum + "]");
            System.out.println("Thread id: " + Thread.currentThread().getId() + " , rece data is : " + value);
        }

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

        }
    }


    public static void main(String[] args) {

        // TopologyBuilder根據Spout和Bolt來構建出Topology
        // Storm中任何一個作業都是通過Topology的方式進行提交的
        // Topology中需要指定Spout和Bolt的執行順序
        TopologyBuilder builder = new TopologyBuilder();
        builder.setSpout("DataSourceSpout", new DataSourceSpout());
        builder.setBolt("SumBolt", new SumBolt(), 3).shuffleGrouping("DataSourceSpout");

        // 程式碼提交到Storm叢集上執行
        String topoName = ClusterSumShuffleGroupingStormTopology.class.getSimpleName();
        try {
            StormSubmitter.submitTopology(topoName,new Config(), builder.createTopology());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

打包放到伺服器測試

shuffleGrouping：
builder.setBolt("CountBolt", new CountBolt(),3).shuffleGrouping("SplitBolt");
隨機分發到3個執行緒裡。

FieldGrouping

根據分組中指定的欄位對流進行分割槽。例如，如果流按“user-id”欄位分組，那麼具有相同“user-id”的元組將始終指向相同的任務，但是具有不同“user-id”的元組可能指向不同的任務。

import org.apache.storm.Config;
import org.apache.storm.StormSubmitter;
import org.apache.storm.spout.SpoutOutputCollector;
import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.TopologyBuilder;
import org.apache.storm.topology.base.BaseRichBolt;
import org.apache.storm.topology.base.BaseRichSpout;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Tuple;
import org.apache.storm.tuple.Values;
import org.apache.storm.utils.Utils;

import java.util.Map;

/**
 * 使用Storm實現積累求和的操作
 */
public class ClusterSumFieldGroupingStormTopology {


    /**
     * Spout需要繼承BaseRichSpout
     * 資料來源需要產生資料併發射
     */
    public static class DataSourceSpout extends BaseRichSpout {

        private SpoutOutputCollector collector;
        /**
         * 初始化方法，只會被呼叫一次
         * @param conf  配置引數
         * @param context  上下文
         * @param collector 資料發射器
         */
        public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
            this.collector = collector;
        }

        int number = 0;

        /**
         * 會產生資料，在生產上肯定是從訊息佇列中獲取資料
         *
         * 這個方法是一個死迴圈，會一直不停的執行
         */
        public void nextTuple() {
            this.collector.emit(new Values(number%2, ++number));

            System.out.println("Spout: " + number);

            // 防止資料產生太快
            Utils.sleep(1000);

        }

        /**
         * 宣告輸出欄位
         * @param declarer
         */
        public void declareOutputFields(OutputFieldsDeclarer declarer) {
            declarer.declare(new Fields("flag","num"));
        }
    }


    /**
     * 資料的累積求和Bolt：接收資料並處理
     */
    public static class SumBolt extends BaseRichBolt {

        /**
         * 初始化方法，會被執行一次
         * @param stormConf
         * @param context
         * @param collector
         */
        public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {

        }

        int sum = 0;

        /**
         * 其實也是一個死迴圈，職責：獲取Spout傳送過來的資料
         * @param input
         */
        public void execute(Tuple input) {

            // Bolt中獲取值可以根據index獲取，也可以根據上一個環節中定義的field的名稱獲取(建議使用該方式)
            Integer value = input.getIntegerByField("num");
            sum += value;

            System.out.println("Bolt: sum = [" + sum + "]");
            System.out.println("Thread id: " + Thread.currentThread().getId() + " , rece data is : " + value);
        }

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

        }
    }


    public static void main(String[] args) {

        // TopologyBuilder根據Spout和Bolt來構建出Topology
        // Storm中任何一個作業都是通過Topology的方式進行提交的
        // Topology中需要指定Spout和Bolt的執行順序
        TopologyBuilder builder = new TopologyBuilder();
        builder.setSpout("DataSourceSpout", new DataSourceSpout());
        builder.setBolt("SumBolt", new SumBolt(), 3)
                .fieldsGrouping("DataSourceSpout", new Fields("flag"));

        // 程式碼提交到Storm叢集上執行
        String topoName = ClusterSumFieldGroupingStormTopology.class.getSimpleName();
        try {
            StormSubmitter.submitTopology(topoName,new Config(), builder.createTopology());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

打包伺服器測試

Fields grouping:
builder.setBolt("CountBolt", new CountBolt(),3).fieldsGrouping("SplitBolt");
只有兩個執行緒在處理；因為是按照基數和偶數來分組的。

AllGrouping

跨所有bolt任務複製流。小心使用這個分組。

import org.apache.storm.Config;
import org.apache.storm.StormSubmitter;
import org.apache.storm.spout.SpoutOutputCollector;
import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.TopologyBuilder;
import org.apache.storm.topology.base.BaseRichBolt;
import org.apache.storm.topology.base.BaseRichSpout;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Tuple;
import org.apache.storm.tuple.Values;
import org.apache.storm.utils.Utils;

import java.util.Map;

/**
 * 使用Storm實現積累求和的操作
 */
public class ClusterSumAllGroupingStormTopology {


    /**
     * Spout需要繼承BaseRichSpout
     * 資料來源需要產生資料併發射
     */
    public static class DataSourceSpout extends BaseRichSpout {

        private SpoutOutputCollector collector;
        /**
         * 初始化方法，只會被呼叫一次
         * @param conf  配置引數
         * @param context  上下文
         * @param collector 資料發射器
         */
        public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
            this.collector = collector;
        }

        int number = 0;

        /**
         * 會產生資料，在生產上肯定是從訊息佇列中獲取資料
         *
         * 這個方法是一個死迴圈，會一直不停的執行
         */
        public void nextTuple() {
            this.collector.emit(new Values(++number));

            System.out.println("Spout: " + number);

            // 防止資料產生太快
            Utils.sleep(1000);

        }

        /**
         * 宣告輸出欄位
         * @param declarer
         */
        public void declareOutputFields(OutputFieldsDeclarer declarer) {
            declarer.declare(new Fields("num"));
        }
    }


    /**
     * 資料的累積求和Bolt：接收資料並處理
     */
    public static class SumBolt extends BaseRichBolt {

        /**
         * 初始化方法，會被執行一次
         * @param stormConf
         * @param context
         * @param collector
         */
        public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {

        }

        int sum = 0;

        /**
         * 其實也是一個死迴圈，職責：獲取Spout傳送過來的資料
         * @param input
         */
        public void execute(Tuple input) {

            // Bolt中獲取值可以根據index獲取，也可以根據上一個環節中定義的field的名稱獲取(建議使用該方式)
            Integer value = input.getIntegerByField("num");
            sum += value;

            System.out.println("Bolt: sum = [" + sum + "]");
            System.out.println("Thread id: " + Thread.currentThread().getId() + " , rece data is : " + value);
        }

        public void declareOutputFields(OutputFieldsDeclarer declarer) {

        }
    }


    public static void main(String[] args) {

        // TopologyBuilder根據Spout和Bolt來構建出Topology
        // Storm中任何一個作業都是通過Topology的方式進行提交的
        // Topology中需要指定Spout和Bolt的執行順序
        TopologyBuilder builder = new TopologyBuilder();
        builder.setSpout("DataSourceSpout", new DataSourceSpout());
        builder.setBolt("SumBolt", new SumBolt(), 3)
                .allGrouping("DataSourceSpout");

        // 程式碼提交到Storm叢集上執行
        String topoName = ClusterSumAllGroupingStormTopology.class.getSimpleName();
        try {
            StormSubmitter.submitTopology(topoName,new Config(), builder.createTopology());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

打包上傳伺服器

有幾個task就會處理幾次-會以副本的形式執行；每個執行緒都會處理同一個數。
這個分組其實沒什麼意義

Storm學習筆記（6）- Stream Grouping概述

文章目錄 Shuffle grouping FieldGrouping AllGrouping 定義topology 的一部分是為每個bolt 指定它應該接收哪些Stream作為輸入。Stream Group

Java8學習筆記（五）--Stream API詳解[轉]

有效編程效率實時處理 phaser 綜合 files -- bin 並發模式為什麽要使用StreamStream 作為 Java 8 的一大亮點，它與 java.io 包裏的 InputStream 和 OutputStream 是完全不同的概念。它也不同於 StAX

ASP.NET學習筆記（6）——jQuery的Ajax基本操作

stat password ash page serve () c# content scrip 說明（2017-11-5 15:49:29）： 1. jQuery裏封裝了三個方法，$.get,$.post和$.ajax,其中$.ajax是返回原生的XMLHttpReque

Linux第二周學習筆記（6）

font anaconda 如果使用 oot zhong 提示就是 bsp Linux第二周學習筆記（6）2.12.MV命令mv命令：用來對文件或目錄重新命名，或者將文件從一個目錄移到另一個目錄中。------------------------------------

Storm學習筆記（1）Hello WordCount - 單機模式

down sys 集群 tokenizer calc com form creat bolt 古人雲，紙上得來終覺淺，絕知此事要躬行。翻譯過來，就是學東西哪有不踩坑的。因為工作原因要折騰Storm，環境和第一個例子折騰了好久，搞完了回頭看，吐血的簡單。 Storm有

TensorFlow學習筆記（6）讀取數據

官網 com 記錄 mat target 項目 AD 包含技術 Overview 之前幾次推送的全部例程，使用的都是tensorflow預處理過的數據集，直接載入即可。例如：然而實際中我們使用的通常不會是這種超級經典的數據集，如果我們有一組圖像存儲在磁盤上

python學習筆記（6）--循環語句

start 循環語句 odi 語句 python學習 col end body AR 循環語句如下： for i in range(start, end): //註意前閉後開 coding for i in 列表名： coding while 條

Rust語言學習筆記（6）

course lin key ati clas mem nsh lis The Traits（特質） // 特質 pub trait Summary { fn summarize(&self) -> String; } pub struct NewsA

cesium 學習筆記（6）2018.11.08

1.新增傾斜攝影3DTiles var tileset = viewer.scene.primitives.add(new Cesium.Cesium3DTileset({ url: url, //資料路徑 maximumScreenSpaceError: 2,

shiro學習筆記（6）--spring整合及可能遇到的問題小結

上篇spring整合shiro後續… spring整合shiro主要是org.apache.shiro.web.filter.authc.FormAuthenticationFilter類。 1、controller @Controller public class HelloSsm {

Storm學習筆記（一）

一、概述 Storm 是一個開源的分散式實時計算系統，可以簡單可靠的處理大量的資料流。Storm可以很多的應用場景：實時分析，線上機器學習，持續計算，分散式RPC，ETL等。Storm支援水平擴充套件，具有高容錯性，保證每個訊息都會得到處理，而且處理速度很快（在一個小叢集中，每個節點每

MongoDB學習筆記（6）--find

MongoDB 查詢文件 MongoDB 查詢文件使用 find() 方法。 find() 方法以非結構化的方式來顯示所有文件。語法 MongoDB 查詢資料的語法格式如下： db.collection.find(query, projection) query ：可選，使用查詢

python Deep learning 學習筆記（6）

本節介紹迴圈神經網路及其優化迴圈神經網路（RNN，recurrent neural network）處理序列的方式是，遍歷所有序列元素，並儲存一個狀態（state），其中包含與已檢視內容相關的資訊。在處理兩個不同的獨立序列（比如兩條不同的 IMDB 評論）之間，RNN 狀態會被重置，因此，你仍可以將一個序列

Linux學習筆記（6）磁碟分割槽（LVM）

1.邏輯管理技術LVM的概念 1.1 LVM ，邏輯卷管理，以便擴充套件管理碟符。　　PV：物理卷　　VG：卷組　　LV：邏輯卷　　PE（physical Extend）：物理擴充套件（預設4M），就是我們邏輯卷管理的最小單位。 1.2 關係如下：　 N個PV組

Java核心技術卷I 基礎知識學習筆記（6）

參考：Java核心技術卷I 基礎知識介面，主要用來描述類具有什麼功能，而並不給出每個功能的具體實現。一個類可以實現一個或多個介面，並在需要介面的地方，隨時使用實現了相應介面的物件。介面不是類，是對類的一組需求描述，這些類要遵從介面描述的統一格式進行定義。介面中的所有方法自

Javascript高級編程學習筆記（6）—— 流程控制語句

新的初始化大量導致原因能力操作符循環對象屬性話不多說，我們直接開始進入今天的主題流程控制語句首先什麽是流程控制語句呢？顧名思義，就是控制流程的語句。在JS中語句定義了ECMAScript中的主要語法，讓我們可以使用一系列的關鍵字來完成指定任務。語

Javascript高階程式設計學習筆記（6）—— 流程控制語句

話不多說，我們直接開始進入今天的主題流程控制語句首先什麼是流程控制語句呢？顧名思義，就是控制流程的語句。在JS中語句定義了ECMAScript中的主要語法，讓我們可以使用一系列的關鍵字來完成指定任務。語句也是構成一門程式語言旳基礎，所以還是有必要記錄一下的。雖然有些語句不常用，但存在即

Python時間序列LSTM預測系列學習筆記（6）-單變數

本文是對： https://machinelearningmastery.com/time-series-forecasting-long-short-term-memory-network-python/ https://blog.csdn.net/iyangdi/article/deta

Lua學習筆記（6）: 函式

Lua的函式函式用於簡化程式，當某些工作需要重複執行的時候就可以使用函式減輕工作量(雖然複製貼上也行) 語法： function 函式名(引數列表) 函式體 return 返回值 end --結束標誌 function識別符號用於宣告函式，函式的返回

Storm 學習筆記（3）—— storm版 wordcount

1 新建maven 工程 1.1 配置依賴 https://search.maven.org <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apach

Storm學習筆記（6）- Stream Grouping概述

文章目錄

Shuffle grouping

FieldGrouping

AllGrouping

相關推薦