Storm-wordcount實時統計單詞次數

阿新 • • 發佈：2018-12-28

一、本地模式

1、WordCountSpout類

package com.demo.wc;

import java.util.Map;

import org.apache.storm.spout.SpoutOutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseRichSpout;
import org.apache.storm.tuple.Fields;
 
import org.apache.storm.tuple.Values;

/**
 * 需求：單詞計數 hello world hello Beijing China
 * 
 * 實現介面：  IRichSpout        IRichBolt
 * 繼承抽象類：BaseRichSpout     BaseRichBolt    常用*/
public class WordCountSpout extends BaseRichSpout {

    //定義收集器
    private SpoutOutputCollector collector;
    
    //傳送資料
    @Override
     
public void nextTuple() {
        //1.傳送資料 到bolt
        collector.emit(new Values("I like China very much"));
        
        //2.設定延遲
        try {
            Thread.sleep(500);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }

    //建立收集器
    @Override
    public 
 void open(Map arg0, TopologyContext arg1, SpoutOutputCollector collector) {
        this.collector = collector;
    }

    //宣告描述
    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        //起別名
        declarer.declare(new Fields("wordcount"));
    }
}

2、WordCountSplitBolt類

package com.demo.wc;

import java.util.Map;

import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseRichBolt;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Tuple;
import org.apache.storm.tuple.Values;

public class WordCountSplitBolt extends BaseRichBolt {

    //資料繼續傳送到下一個bolt
    private OutputCollector collector;
    
    //業務邏輯
    @Override
    public void execute(Tuple in) {
        //1.獲取資料
        String line = in.getStringByField("wordcount");
        
        //2.切分資料
        String[] fields = line.split(" ");
        
        //3.<單詞,1> 傳送出去 下一個bolt(累加求和)
        for (String w : fields) {
            collector.emit(new Values(w, 1));
        }
    }

    //初始化
    @Override
    public void prepare(Map arg0, TopologyContext arg1, OutputCollector collector) {
        this.collector = collector;
    }

    //宣告描述
    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("word", "sum"));
    }
}

3、WordCountBolt類

package com.demo.wc;

import java.util.HashMap;
import java.util.Map;

import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.OutputFieldsDeclarer;
import org.apache.storm.topology.base.BaseRichBolt;
import org.apache.storm.tuple.Tuple;

public class WordCountBolt extends BaseRichBolt{

    private Map<String, Integer> map = new HashMap<>();
    
    //累加求和
    @Override
    public void execute(Tuple in) {
        //1.獲取資料
        String word = in.getStringByField("word");
        Integer sum = in.getIntegerByField("sum");
        
        //2.業務處理
        if (map.containsKey(word)) {
            //之前出現幾次
            Integer count = map.get(word);
            //已有的
            map.put(word, count + sum);
        } else {
            map.put(word, sum);
        }
        
        //3.列印控制檯
        System.out.println(Thread.currentThread().getName() + "\t 單詞為：" + word + "\t 當前已出現次數為：" + map.get(word));
    }

    @Override
    public void prepare(Map arg0, TopologyContext arg1, OutputCollector arg2) {        
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer arg0) {        
    }
}

4、WordCountDriver類

package com.demo.wc;

import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.topology.TopologyBuilder;
import org.apache.storm.tuple.Fields;

public class WordCountDriver {
    public static void main(String[] args) {
        //1.hadoop->Job storm->topology 建立拓撲
        TopologyBuilder builder = new TopologyBuilder();
        //2.指定設定
        builder.setSpout("WordCountSpout", new WordCountSpout(), 1);
        builder.setBolt("WordCountSplitBolt", new WordCountSplitBolt(), 4).fieldsGrouping("WordCountSpout", new Fields("wordcount"));
        builder.setBolt("WordCountBolt", new WordCountBolt(), 2).fieldsGrouping("WordCountSplitBolt", new Fields("word"));
        
        //3.建立配置資訊
        Config conf = new Config();
        
        //4.提交任務
        LocalCluster localCluster = new LocalCluster();
        localCluster.submitTopology("wordcounttopology", conf, builder.createTopology());
    }
}

5、直接執行（4）裡面的main方法即可啟動本地模式。

二、叢集模式

前三個類和上面本地模式一樣，第4個類WordCountDriver和本地模式有點區別

package com.demo.wc;

import org.apache.storm.Config;
import org.apache.storm.StormSubmitter;
import org.apache.storm.topology.TopologyBuilder;
import org.apache.storm.tuple.Fields;

public class WordCountDriver {
    public static void main(String[] args) {
        //1.hadoop->Job storm->topology 建立拓撲
        TopologyBuilder builder = new TopologyBuilder();
        //2.指定設定
        builder.setSpout("WordCountSpout", new WordCountSpout(), 1);
        builder.setBolt("WordCountSplitBolt", new WordCountSplitBolt(), 4).fieldsGrouping("WordCountSpout", new Fields("wordcount"));
        builder.setBolt("WordCountBolt", new WordCountBolt(), 2).fieldsGrouping("WordCountSplitBolt", new Fields("word"));
        
        //3.建立配置資訊
        Config conf = new Config();
        //conf.setNumWorkers(10);
        
        //叢集模式
        try {
            StormSubmitter.submitTopology(args[0], conf, builder.createTopology());
        } catch (Exception e) {
            e.printStackTrace();
        }
        
        //4.提交任務
        //LocalCluster localCluster = new LocalCluster();
        //localCluster.submitTopology("wordcounttopology", conf, builder.createTopology());
    }
}

把程式打成jar包放在啟動了Storm叢集的機器裡，在stormwordcount.jar所在目錄下執行

storm jar stormwordcount.jar com.demo.wc.WordCountDriver wordcount01

即可啟動程式。

三、併發度和分組策略

1、WordCountDriver_Shuffle類

package com.demo.wc;

import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.topology.TopologyBuilder;

public class WordCountDriver_Shuffle {
    public static void main(String[] args) {
        //1.hadoop->Job storm->topology 建立拓撲
        TopologyBuilder builder = new TopologyBuilder();
        //2.指定設定
        builder.setSpout("WordCountSpout", new WordCountSpout(), 2);
        builder.setBolt("WordCountSplitBolt", new WordCountSplitBolt(), 2).setNumTasks(4).shuffleGrouping("WordCountSpout");
        builder.setBolt("WordCountBolt", new WordCountBolt(), 6).shuffleGrouping("WordCountSplitBolt");
        
        //3.建立配置資訊
        Config conf = new Config();
        //conf.setNumWorkers(2);
        
        //叢集模式
//        try {
//            StormSubmitter.submitTopology(args[0], conf, builder.createTopology());
//        } catch (Exception e) {
//            e.printStackTrace();
//        }
        
        //4.提交任務
        LocalCluster localCluster = new LocalCluster();
        localCluster.submitTopology("wordcounttopology", conf, builder.createTopology());
    }
}

2、併發度與分組策略

Storm-wordcount實時統計單詞次數

一、本地模式 1、WordCountSpout類 package com.demo.wc; import java.util.Map; import org.apache.storm.spout.SpoutOutputCollector; import org.apache.storm.task

lucene 統計單詞次數(詞頻)並進行排序

edm font tin total .html lan 技術 rms puts 1 public class WordCount { 2 static Directory directory; 3 // 創建分詞器 4 stati

004簡單介紹WordCount，統計文本單詞次數

override map() inter 根據 tasks mat import values com MapReduce簡介 MapReduce是一種分布式計算模型,主要解決海量數據的計算問題。 MR有兩個階段組成：Map和Reduce，用戶只需實現map()和redu

Storm設計一個Topology用來統計單詞的TopN的實例

osi was 對象 turn col rms nds owin collect Storm的單詞統計設計一：Storm的wordCount和Hadoop的wordCount實例對比二：Storm的wordCount的方案實例設計三：建立maven項目，添

Flume+Kafka+Storm+Redis構建大數據實時處理系統：實時統計網站PV、UV+展示

大數據實時計算 Storm [TOC] 1 大數據處理的常用方法前面在我的另一篇文章中《大數據采集、清洗、處理：使用MapReduce進行離線數據分析完整案例》中已經有提及到，這裏依然給出下面的圖示：前面給出的那篇文章是基於MapReduce的離線數據分析案例，其通過對網站產生的用戶訪問

統計單詞在每個檔案中出現的次數，並且將出現次數按照降序排列

package kaoshi3; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import org.apache.hadoop.conf.Configuratio

利用python內建函式，快速統計單詞在文字中出現的次數

python中包含許多標準程式設計資料結構，如list(列表)，tuple(元組）、dict（字典）和set()，如果現有的資料型別不能滿足需求，可以派生某個內建型別進行定製，或者使用collections中定義的某個抽象基類作為起點構建一個新的容器型別。 c

apache-storm例子：統計句子中的單詞數量

模型圖程式碼 pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven

Mapreduce例項---統計單詞個數（wordcount）

一：問題介紹統計每一個單詞在整個資料集中出現的總次數。資料流程：二：需要的jar包 Hadoop-2.4.1\share\hadoop\hdfs\hadoop-hdfs-2.4.1.ja

Storm之網站實時統計

package com.uplooking.bigdata.storm.test; import org.apache.storm.Config; import org.apache.storm.Constants; import org.apache.storm.LocalCluster; import o

Storm+Hbase廣告實時統計

本文主要講述使用Kafka+Strom+Hbase搭建的一套廣告實時計算系統。其中伺服器顯示使用的是Spr

ConcurrentHashMap統計單詞出現的次數

/** * 統計單詞出現的次數 * @author wucj * @date 2019-06-27 11:35 *

【基礎水題】統計單詞個數

int pan 一個 else art 個數 print urn 是不是 1 //1.統計單詞的個數 2 #include <stdio.h> 3 int main(void) 4 { 5 int i, flag = 0, number =

P1026 統計單詞個數

word 截斷 area for name center 方程拆分決策 P1026 統計單詞個數題目描述給出一個長度不超過200的由小寫英文字母組成的字母串(約定;該字串以每行20個字母的方式輸入，且保證每行一定為20個)。要求將此字母串分成k份(1<k<

一行 Shell 通過 Nginx access 日誌實時統計單臺機器QPS

log else 一行實時 %d == nbsp qps 機器 # 實時統計 ## 方式一 tail -f access.log | awk -F ‘[‘ ‘{print $2}‘ | awk ‘BEGIN{key="";count=0}{if(key==$1)

hadoop-mapreduce-(1)-統計單詞數量

fig pack lib let ack 函數 text dex pri 編寫map程序 package com.cvicse.ump.hadoop.mapreduce.map; import java.io.IOException; import org.apach

1400統計單詞數（noip2011普及組第2題）

統計單詞 etl space name main turn cin iostream pre 1 #include<cstdio> 2 #include<cstring> 3 #include<iostream> 4 #incl

【大數據】大數據-實時統計分析-方案選型

百度搜索列存儲數據趨勢數據分析分析 -s odi cse amp 大數據-實時統計分析-方案選型 image2017-10-27_11-10-53.png (1067×738)elasticsearch-headElasticsearch-sql clientspa

基於Storm構建實時熱力分布項目實戰

解析 cat django ron 優化 Redis分布式 java並發編程 body code 詳情請交流 QQ 709639943 01、基於Storm構建實時熱力分布項目實戰 02、以慕課網日誌分析為例進入大數據 Spark SQL 的世界 03、Spri

Storm WordCount

本地 mage pos 環境 mapreduce bsp red ntb orm 特別註意，在本地運行的時候應該去掉<scope>provided</scope>，否則會報java.lang.ClassNotFoundException: org.

Storm-wordcount實時統計單詞次數

相關推薦