基於Storm的WordCount

Storm WordCount 工作過程

Storm 版本：
1、Spout 從外部資料來源中讀取資料，隨機發送一個元組物件出去；
2、SplitBolt 接收 Spout 中輸出的元組物件，將元組中的資料切分成單詞，並將切分後的單詞發射出去；
3、WordCountBolt 接收 SplitBolt 中輸出的單詞陣列，對裡面單詞的頻率進行累加，將累加後的結果輸出。

Java 版本：
1、讀取檔案中的資料，一行一行的讀取；
2、將讀到的資料進行切割；
3、對切割後的陣列中的單詞進行計算。

Hadoop 版本：
1、按行讀取檔案中的資料；
2、在 Mapper()函式中對每一行的資料進行切割，並輸出切割後的資料陣列；

3、接收 Mapper()中輸出的資料陣列，在 Reducer()函式中對陣列中的單詞進行計算，將計算後的統計結果輸出。

原始碼

storm的配置、eclipse裡maven的配置以及建立專案部分省略。

Mainclass

package com.test.stormwordcount;
import backtype.storm.Config; 
import backtype.storm.LocalCluster; 
import backtype.storm.StormSubmitter; 
import backtype.storm.generated.AlreadyAliveException; 
import backtype.storm.generated.InvalidTopologyException; 
import backtype.storm.topology.TopologyBuilder; 
import backtype.storm.tuple.Fields; 

public class MainClass { 

    public static void main(String[] args) throws AlreadyAliveException, InvalidTopologyException {         
        //建立一個 TopologyBuilder         
        TopologyBuilder tb = new TopologyBuilder();         
        tb.setSpout("SpoutBolt", new SpoutBolt(), 2);         tb.setBolt("SplitBolt", new SplitBolt(), 2).shuffleGrouping("SpoutBolt");         
        tb.setBolt("CountBolt", new CountBolt(), 4).fieldsGrouping("SplitBolt", new Fields("word"));         
        //建立配置         
        Config conf = new Config();         
        //設定 worker 數量         
        conf.setNumWorkers(2);         
        //提交任務         
        //叢集提交         
        //StormSubmitter.submitTopology("myWordcount", conf, tb.createTopology());         
        //本地提交         
        LocalCluster localCluster = new LocalCluster();         
        localCluster.submitTopology("myWordcount", conf, tb.createTopology()); 
    }  
}

SplitBolt 部分

package com.test.stormwordcount;
import java.util.Map; 
import backtype.storm.task.OutputCollector; 
import backtype.storm.task.TopologyContext; 
import backtype.storm.topology.OutputFieldsDeclarer; 
import backtype.storm.topology.base.BaseRichBolt; 
import backtype.storm.tuple.Fields; 
import backtype.storm.tuple.Tuple; 
import backtype.storm.tuple.Values; 

public class SplitBolt extends BaseRichBolt{      
    OutputCollector collector; 

    /**      * 初始化      */     
    public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {         
        this.collector = collector;     
        } 

    /**      * 執行方法      */     
    public void execute(Tuple input) {         
        String line = input.getString(0);         
        String[] split = line.split(" ");         
        for (String word : split) {             
            collector.emit(new Values(word));         
            }     
        } 

    /**      * 輸出      */     
    public void declareOutputFields(OutputFieldsDeclarer declarer) {         
        declarer.declare(new Fields("word"));     
        } 
}

CountBolt 部分

package com.test.stormwordcount;
import java.util.HashMap; 
import java.util.Map; 
import backtype.storm.task.OutputCollector; 
import backtype.storm.task.TopologyContext; 
import backtype.storm.topology.OutputFieldsDeclarer; 
import backtype.storm.topology.base.BaseRichBolt; 
import backtype.storm.tuple.Tuple; 

public class CountBolt extends BaseRichBolt{ 

    OutputCollector collector;
    Map<String, Integer> map = new HashMap<String, Integer>(); 

    /**      * 初始化      */     
    public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {         
        this.collector = collector;     
        } 


    /**      * 執行方法      */     
public void execute(Tuple input) {         
    String word = input.getString(0);         
    if(map.containsKey(word)){             
    Integer c = map.get(word);             
        map.put(word, c+1);         
        }else{             
        map.put(word, 1);         
        }         
    //測試輸出         
    System.out.println("結果:"+map);     
    } 

    /**      * 輸出      */     
public void declareOutputFields(OutputFieldsDeclarer declarer) {     
    
} 
}

SpoutBolt 部分

package com.test.stormwordcount;
import java.util.Map; 
import backtype.storm.spout.SpoutOutputCollector; 
import backtype.storm.task.TopologyContext; 
import backtype.storm.topology.OutputFieldsDeclarer; 
import backtype.storm.topology.base.BaseRichSpout; 
import backtype.storm.tuple.Fields; 
import backtype.storm.tuple.Values; 

public class SpoutBolt extends BaseRichSpout{ 

    SpoutOutputCollector collector;
    /**      * 初始化方法      */     
    public void open(Map map, TopologyContext context, SpoutOutputCollector collector) {         
        this.collector = collector;     
        } 

    /**      * 重複呼叫方法      */     
    public void nextTuple() {         
        collector.emit(new Values("hello world this is a test"));     
        } 

    /**      * 輸出      */     
    public void declareOutputFields(OutputFieldsDeclarer declarer) {         
        declarer.declare(new Fields("test"));     
        } 
}

POM.XML 檔案內容

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>

<groupId>com.test</groupId>
<artifactId>stormwordcount</artifactId>
<version>0.9.6</version>
<packaging>jar</packaging>

<name>stormwordcount</name>
<url>http://maven.apache.org</url>

<properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<dependencies>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>3.8.1</version>
        <scope>test</scope>
    </dependency>
    <dependency>
        <groupId>org.apache.storm</groupId>
        <artifactId>storm-core</artifactId>
        <version>0.9.6</version>
    </dependency>
</dependencies>
<build>
    <plugins>
        <plugin>
            <artifactId>maven-assembly-plugin</artifactId>
            <configuration>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
                <archive>
                    <manifest>
                        <mainClass>com.test.stormwordcount.MainClass</mainClass>
                    </manifest>
                </archive>
            </configuration>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
                    <goals>
                        <goal>single</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-compiler-plugin</artifactId>
            <configuration>
                <source>1.7</source>
                <target>1.7</target>
            </configuration>
        </plugin>
    </plugins>
</build>

遇到的問題

基於Storm的WordCount需要eclipse安裝了maven外掛，之前的大資料實踐安裝的eclipse版本為Eclipse IDE for Eclipse Committers4.5.2，這個版本不自帶maven外掛，後續安裝失敗了幾次（網上很多的教程都已經失效），這裡分享一下我成功安裝的方法：
使用連結下載，Help->Install New SoftWare

點選Add，name輸入隨意，在location輸入下載eclipse的maven外掛，下載地址可以這樣獲取
點選連線：http://www.eclipse.org/m2e/index.html 進入網站後點擊download，拉到最下面可以看到很多eclipse maven外掛的版本和釋出時間，選在適合eclipse的版本複製連結即可。建議取消選中Contack all update sites during install to find required software(耗時太久)。

但是安裝成功後還是無法配置（這裡原因不太清楚，沒找到解決辦法），就直接上官網換成自己maven外掛的JavaEE IDE了...

後續的maven的配置這些都比較順利，第一次建立maven-archetype-quickstat專案報錯，試了網上很多辦法都還沒成功，然後開啟 Windows->Preferencs->Maven->Installation發現之前配置了的maven的安裝路徑沒了...重新配置了下就可以建立專案了。

最後執行成功的結果：

基於Storm的WordCount

Storm WordCount 工作過程

原始碼

遇到的問題

SOA與基於CDIF的API的聯動

python基礎之socket編程-------基於tcp的套接字實現遠程執行命令的操作

國家商用password（五）基於SM2的軟件授權碼生成及校驗

day39-Spring 08-Spring的AOP：基於AspectJ的註解

從零開始——基於角色的權限管理01（補充）

Web驗證碼圖片的生成-基於Java的實現

基於OpenGL編寫一個簡易的2D渲染框架-04 繪制圖片

聊天程序（基於Socket、Thread）

day39-Spring 11-Spring的AOP：基於AspectJ的XML配置方式

基於upd的socketserver,即udp的多線程

基於udp的socket

基於tcp的socketserver,即tcp的多線程

Asp.net基於session實現購物車的方法

2.3 基於寬度優先搜索的網頁爬蟲原理講解

基於矢量數據的逆地理編碼功能實現

簡單的登錄基於代碼的

基於OpenGL編寫一個簡易的2D渲染框架-05 渲染文本

基於Cocos2dx + box2d 實現的憤慨的小鳥Demo

擼代碼--linux進程通信（基於共享內存）

pyDash：一個基於 web 的 Linux 性能監測工具

基於Storm的WordCount

Storm WordCount 工作過程

原始碼

遇到的問題

相關推薦