SparkSteaming實時接收網路埠資料和hdfs做Wordcount

阿新 • • 發佈：2018-12-29

一、POM配置

因為使用windows的IDEA連線虛擬機器中的Spark，所有要配置一下依賴

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.imooc.spark</groupId>
  <artifactId>sparktrain</artifactId>
  <version>1.0</version>
  <inceptionYear>2008</inceptionYear>
  <properties>
    <scala.version>2.11.4</scala.version>
    <kafka.version>1.0.0</kafka.version>
    <spark.version>2.4.0</spark.version>
    <hadoop.version>2.6.1</hadoop.version>
    <hbase.version>1.2.6</hbase.version>
  </properties>
  <dependencies>
    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-library</artifactId>
      <version>${scala.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.kafka</groupId>
      <artifactId>kafka_2.11</artifactId>
      <version>1.0.0</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-client</artifactId>
      <version>${hadoop.version}</version>
    </dependency>
    <dependency>
      <groupId>io.netty</groupId>
      <artifactId>netty-all</artifactId>
      <version>4.1.17.Final</version>
    </dependency>
    <dependency>
      <groupId>com.fasterxml.jackson.module</groupId>
      <artifactId>jackson-module-scala_2.11</artifactId>
      <version>2.9.1</version>
    </dependency>
    <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <version>5.1.31</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hbase</groupId>
      <artifactId>hbase-client</artifactId>
      <version>${hbase.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming_2.11</artifactId>
      <version>2.4.0</version>
    </dependency>
  </dependencies>

  <build>
    <sourceDirectory>src/main/scala</sourceDirectory>
    <testSourceDirectory>src/test/scala</testSourceDirectory>
    <plugins>
      <plugin>
        <groupId>org.scala-tools</groupId>
        <artifactId>maven-scala-plugin</artifactId>
        <executions>
          <execution>
            <goals>
              <goal>compile</goal>
              <goal>testCompile</goal>
            </goals>
          </execution>
        </executions>
        <configuration>
          <scalaVersion>${scala.version}</scalaVersion>
          <args>
            <arg>-target:jvm-1.5</arg>
          </args>
        </configuration>
      </plugin>
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-eclipse-plugin</artifactId>
        <configuration>
          <downloadSources>true</downloadSources>
          <buildcommands>
            <buildcommand>ch.epfl.lamp.sdt.core.scalabuilder</buildcommand>
          </buildcommands>
          <additionalProjectnatures>
            <projectnature>ch.epfl.lamp.sdt.core.scalanature</projectnature>
          </additionalProjectnatures>
          <classpathContainers>
            <classpathContainer>org.eclipse.jdt.launching.JRE_CONTAINER</classpathContainer>
            <classpathContainer>ch.epfl.lamp.sdt.launching.SCALA_CONTAINER</classpathContainer>
          </classpathContainers>
        </configuration>
      </plugin>
    </plugins>
  </build>
  <reporting>
    <plugins>
      <plugin>
        <groupId>org.scala-tools</groupId>
        <artifactId>maven-scala-plugin</artifactId>
        <configuration>
          <scalaVersion>${scala.version}</scalaVersion>
        </configuration>
      </plugin>
    </plugins>
  </reporting>
</project>

二、實時接收網路資料

1.程式碼

package Sparkstreaming

import java.sql.DriverManager

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}


object NetWorkCount {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setAppName("NerWorkCount").setMaster("local[2]")
    val ssc =new StreamingContext(conf,Seconds(5))
    val lines=ssc.socketTextStream("192.168.116.10",9999)
    val result=lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
    //System.setProperty("hadoop.home.dir","E:\\MVN\\hadoop-common-2.2.0-bin-master")
    //相當於這個寫法 reduceByKey((x,y) => x+y)當找到key相同的兩條記錄時會對其value(分別記為x,y)做(x,y) => x+y
    result.print()
    result.foreachRDD { rdd =>
      rdd.foreachPartition { partitionOfRecords =>
        val connection = createconnection()
        partitionOfRecords.foreach(record =>{
          val sql="insert into wordcount values('"+record._1+"',"+record._2+")"
          connection.createStatement().execute(sql)
        }
         )
        connection.close()
      }
    }
    ssc.start()
    ssc.awaitTermination()
    //awaitTermination用於等待子執行緒結束，再繼續執行下面的程式碼

  }
  def createconnection()={
    Class.forName("com.mysql.jdbc.Driver")
    DriverManager.getConnection("jdbc:mysql://192.168.116.10:3306/test","root","123456")
  }

}

2.測試

在虛擬機器中開啟新開一個視窗，輸入nc -lk 6789

然後執行IDEA的spark原始碼，隨便輸入幾個單詞，可以發現IDEA已經顯示出來了。

3.報錯處理。

在Windows執行的時候，可能會報錯 Failed to locate the winutils binary in the hadoop binary path，可以到GitHub下載整個bin目錄，然後修改本機的環境變數。在cmd中測試一下輸入hadoop看看環境是否設定成功。

三、實時接收本地hdfs資料

1.程式碼

package Sparkstreaming

import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object Filewordcount {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setAppName("Filewordcont").setMaster("local")
    val ssc=new StreamingContext(conf,Seconds(5))
    val lines=ssc.textFileStream("hdfs://192.168.116.10:9000/sqoop/hdfs/")
    val result=lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
    result.print()
    ssc.start()
    ssc.awaitTermination()
  }

}

四、做名單過濾

1.程式碼

package Sparkstreaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object Filtername {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("Filewordcont").setMaster("local[2]")
    val ssc = new StreamingContext(conf, Seconds(5))
    //名單過濾之建立名單
    val names=List("good","better")
    val namesRDD=ssc.sparkContext.parallelize(names).map((_,true))
    val lines = ssc.socketTextStream("192.168.116.10", 6789)
    val result = lines.map(x=>(x.split(",")(1),x)).transform(rdd=>rdd.leftOuterJoin(namesRDD)).
      filter(x=>x._2._2.getOrElse("good")!="good").map(x=>x._2._1)
    result.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

2.測試

在控制檯輸入可以發現只有2018，good打印出來而已

SparkSteaming實時接收網路埠資料和hdfs做Wordcount

一、POM配置因為使用windows的IDEA連線虛擬機器中的Spark，所有要配置一下依賴 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-

安卓關於接收串列埠資料的問題

我用InputStream讀串列埠資料，會丟失一部分資料，我是設定的每次讀1160大小的資料，每次都會丟失最後幾個位元組的資料，難道我快取資料會在沒讀完的情況下自動清空嗎？下面是我用到的程式碼：

express接收base64編碼資料和檔案儲存

圖片在瀏覽器的javascript中操作，只能是base64編碼的文字。比如從html5 canvas儲存圖片，只能生成base64編碼的文字，通過toDataURL()方法。生成的輸入類似這樣： data:image/png;base64,iVBORw0KGgoAA

Python使用執行緒來接收串列埠資料

#!/usr/bin/env python import serial import time import thread class MSerialPort: message='' def _

jmeter 介面返回資料和資料庫做校驗

記錄一下jmeter介面測試時通過beanshell斷言，介面返回資料和資料庫做校驗老樣子單純的寫給自己看的。。。。最近在用jmeter做介面測試，覺得單純的響應斷言有點low所以就想拿介面資料和資料庫做校驗然後，然後發現自己不會，網上一頓亂找後眼睛都看疼了，2天

Flume採集資料：從指定網路埠和實時監控新增資料

一、從指定埠採集資料 1.配置flume檔案建立一個檔案叫ip.conf，自己隨便取的名字。 a1.sources=r1 a1.sinks=k1 a1.channels=c1 #描述和配置source，這裡的a表示agent的名字 #第一步:配置source a1.sources.r1

STM32F103配置串列埠中斷服務函式並接收double雙精度資料,python傳送和接收雙精度資料

（1）首先，我們要進行串列埠中斷服務函式的配置 void USART1_Config(void) { GPIO_InitTypeDef GPIO_InitStructure; &nb

UDP網路程式傳送和接收資料

建立一個基於udp的網路程式流程很簡單，具體步驟如下： 1.建立客戶端套接字 2.傳送/接收資料 3.關閉套接字 UDP傳送和接收資料在 Python 中使用socket 模組的函式 socket 就可以完成： import socket #

linux多執行緒下開啟串列埠傳送和接收資料

1 啟動執行緒1讀串列埠 2 等待3秒後 3 啟動執行緒2寫串列埠,傳送字串後關閉 4 等待10秒 5 關閉兩個執行緒 #include <pthread.h> #include <stdio.h> #include <sys/time.h> #include &

unity網路實戰開發（叢林戰爭）-前期知識準備（003-開發伺服器端的傳送資料和接收資料）

使用工具：VS2015使用語言：c#作者：Gemini_xujian參考：siki老師-《叢林戰爭》視訊教程繼上一篇文章內容，這節課講解一下伺服器端的傳送資料和接收資料。上篇文章完成了ip和埠號的繫結，接下來，我們首先需要監聽埠並接收客戶端的連線serverSocket.Li

HDFS管理介面50070埠和HDFS元資料同步的奇妙關係

問題描述：在做巡檢時，驚恐發現主NameNode的元資料儲存目錄下無fsimage檔案。趕緊去備NameNode機器上看了一下，發現有fsimage_檔案正常生成啊。怎麼就沒同步成功呢。問題處理：看日誌。發現備機會連主機的50070埠傳送同步指令

STM32串列埠傳送資料和接收資料方式總結

之前寫了篇關於ESP8266使用AT指令進行互相通訊的實驗，在寫STM32串列埠接發資料的程式中，覺得有必要將之前學的有關於串列埠方面的使用經歷加以總結。串列埠傳送資料： 1. 串列埠傳送資料最直接的方式就是標準呼叫庫函式。 void

串列埠資料接收LCD液晶顯示

接上篇部落格，對串列埠接收到的資料在LCD液晶上進行顯示，這裡只顯示了一個數據，拿了數組裡面的一個數據進行了顯示。硬體連線上：A板PA9---->B板PA10，A板PA10--->B板PA9。 #include "led.

STM32開發小結--使用STM32F4串列埠的空閒中斷模式+DMA接收不定長資料幀

開發平臺：Keil 5 庫函式版本：V3.5 晶片：STM32F407VET6 1 STM32的串列埠接收資料的方式 STM32的串列埠接收資料有三種方式可以選擇： 1.1 輪詢接收在主迴圈中一直判斷串列埠接收完成標誌位是否置位，如果置位則讀取收到的資料。該種模式

解決Linux下串列埠資料接收不全的異常問題

1、引言最近在Linux下除錯串列埠程式，遇到了串列埠資料接收不全的異常問題，經過將近一上午的努力終於找到問題根源，特此分享給大家，此次除錯過程中用到了主要用到了minicom工具，至於minicom的使用大家可以自行查詢相關資料。 2、正文

串列埠接收時丟資料問題解決方案

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

STM32使用串列埠IDLE中斷的兩種接收不定長資料的方式

現在有很多資料處理都要用到不定長資料，而微控制器串列埠的RXNE中斷一次只能接收一個位元組的資料，沒有緩衝區，無法接收一幀多個數據，現提供兩種利用串列埠IDLE空閒中斷的方式接收一幀資料，方法如下: 方法1：實現思路：採用STM32F103的串列埠1，並配置成空閒中斷IDLE模式且使能DMA接收

風火程式設計--python獲取單隻股票實時資料和歷史資料

獲取股票資料這本來是專門為我的一個單一選股模型提供資料的類, 因此封裝的只是模型中需要的資料. 如有其它需求可以自己擴充套件. 積分多的可以下載檔案, 沒積分的直接複製下面的程式碼是一樣的. 程式碼不復雜, 一看就懂. 歡迎加qq或微信(77245741)共同探討. # cod

Hive讀取HDFS上面的資料和使用Squirrel客戶端連線Hive

一、把資料從HDFS匯入到hive的表裡前面已經測試了利用Sqoop把資料從SQL Server匯入到hdfs中，但是分成了好多小檔案，正在思考如何把很多小檔案一起匯入到hive裡面，突然想到可以用*來代替啊。 1.建表在hive裡面建立好對應的表格 create t

資料通訊網路的執行和維護

資料通訊網路的執行和維護【摘要】近年來我國科學技術的發展有目共睹，資料通訊技術也得到了廣泛的應用，然而網路技術是一把雙刃劍，資料通訊網路在方便人們生活的同時也出現了許多安全問題。本文主要就資料通訊網路維護與網路安全問題做一番探討。【關鍵詞】資料通訊網路；維護網路安全；管理隨著科

SparkSteaming實時接收網路埠資料和hdfs做Wordcount

相關推薦