kafka-streams進行簡單的資料清洗

阿新 • • 發佈：2018-12-23

package com.terry.kafkastream;

	import org.apache.kafka.streams.KafkaStreams;
	import org.apache.kafka.streams.StreamsConfig;
	import org.apache.kafka.streams.Topology;
	import org.apache.kafka.streams.processor.Processor;
	import org.apache.kafka.streams.processor.ProcessorSupplier;

	import java.util.Properties;

	/**
	 * 需求：對資料進行清洗操作
	 *
	 * 思路：terry-henshuai 把-清洗掉
	 */
	public class Application {
	    public static void a(String[] args) {
	        //1、定義主題 傳送到另外一個主題 資料清洗
	        String oneTopic = "t1";
	        String twoTopic = "t2";

	        //2、設定屬性
	        Properties properties = new Properties();
	        properties.put(StreamsConfig.APPLICATION_ID_CONFIG,"logProcessor");
	        properties.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG,"bigdata:9092");

	        //3、例項物件
	        StreamsConfig streamsConfig = new StreamsConfig(properties);

	        //4、流計算
	        Topology topology = new Topology();

	        //5、定義kafka元件資料來源
	        topology.addSource("Source", oneTopic).addProcessor("Processor", new ProcessorSupplier<byte[], byte[]>() {
	            @Override
	            public Processor<byte[], byte[]> get() {
	                return new LogProcessor();
	            }
	        },"Source").addSink("Sink",twoTopic,"Processor");

	        //6、例項化
	        KafkaStreams kafkaStreams = new KafkaStreams(topology, properties);
	        kafkaStreams.start();


	    }

	}

	package com.terry.kafkastream;

	import org.apache.kafka.streams.processor.Processor;
	import org.apache.kafka.streams.processor.ProcessorContext;

	/**
	 * 資料清洗
	 */
	public class LogProcessor  implements Processor<byte[], byte[]> {

	    private ProcessorContext processorContext;

	    @Override
	    public void init(ProcessorContext processorContext) {
	        //傳輸
	        this.processorContext=processorContext;

	    }

	    @Override
	    public void process(byte[] key, byte[] value) {
	        //1、拿到訊息資料，專程字串
	        String s = new String(value);

	        //2、如果包含-，則取出
	        if(s.contains("-")){
	            String[] split = s.split("-");
	            s = split[1];
	        }

	        processorContext.forward(key,s.getBytes());

	    }


	    @Override
	    public void close() {

	    }
	}

kafka-streams進行簡單的資料清洗

package com.terry.kafkastream; import org.apache.kafka.streams.KafkaStreams; import org.apache.kafka.streams.StreamsConfig; import org.apache.kafk

資料基礎---《利用Python進行資料分析·第2版》第7章資料清洗和準備

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在資料分析和建模的過程中，相當多的時間要用在資料準備上：載入、清理、轉換以及重塑。這些工作會佔到分析師時間的80%或更多。

Excel中如何對資料進行簡單排序

excel表格如何排序，在Excel 2013中，對資料表中的資料進行排序時，如果按照單列的內容進行簡單排序，可以直接使用選項板中的“升序”選項或“降序”選項來完成。【解決方法，教程視訊資料如下】本教程視訊資料來源：http://edu.51cto.com/course/15404.html 完整部落格

python簡單完成資料清洗

f = open("datasets_origin/foresfires.txt", "r") nf = open("./datasetss/foresfires.txt", "w+") for line in f.readlines(): line = line.split() pri

SearchView+Filter對資料進行簡單過濾

轉：https://www.jianshu.com/p/5078c7fec29e 我是使用ListView實現展示系統應用的demo 執行邏輯是這樣的: 通過SearchView獲取使用者輸入的文字. 把文字傳到Adpater,在Adpater中對關鍵字進行篩選.

python資料預處理：使用pandas 進行資料清洗

問題：介紹資料清洗方法。。解答：所謂資料清洗主要處理的是資料中的缺失值、異常值和重複值：缺失值處理資料缺失值指由於各種原因導致資料中存在的空缺值：資料庫中的null，python返回物件none，pandas或numpy中的nan；另空字串是有實體的不算是缺

資料清洗-> 資料入庫-> 資料視覺化的簡單專案

資料從同事那裡拿來，大概60萬條，幾百MB ，是某市面上保險櫃子的資料，現在要分析這批資料。資料清洗:略資料入庫:略資料視覺化: #!/usr/bin/python3 import pymysql type_list = ["userInfoSync","alertRe

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

主要內容：格式轉換缺失資料異常資料資料標準化操作格式轉換如Python記錄時間的方式，不能夠直接實現減運算，就需要進行轉換 pandas.to_datetime 缺失資料忽略缺失資料直接標記利用平均值、最常出現值進行填充異常資料處

Hadoop(21)-資料清洗(ELT)簡單版

有一個諸如這樣的log日誌去除長度不合法,並且狀態碼不正確的記錄 LogBean package com.nty.elt; /** * author nty * date time 2018-12-14 15:27 */ public class Log { private

使用異或和base64_encode 進行對儲存在客戶端的資料進行簡單的加密

一般加密 <?php /** * Created by PhpStorm. * User: admin * Date: 2018/10/14 * Time: 11:29 */ namespace app\common\lib; /**進行

通過Kafka在ignite叢集之間進行實時資料複製

版本1.6的ApacheIgnite提供了一種基於KafkaConnect進行資料處理的新方法。Kafka Connect是ApacheKafka 0.9中引入的一個新特性，它支援ApacheKafka和其他資料系統之間的可伸縮和可靠的流資料。它使得在記憶體中向您的可伸縮和安

Pyhton抓取BOSS直聘職位描述和資料清洗，很簡單沒有那麼難

一、抓取詳細的職位描述資訊詳情頁分析 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 在詳情頁中，比較重要的就是職位描述和工作地址這兩個由於在頁面程式碼中崗位職責和任職要求是在一個 div 中的，所以在抓的時候就不太好分，

kafka-stream資料清洗

1、資料清洗業務類LogProcessor package com.css.kafka.kafka_stream; import org.apache.kafka.streams.processor.Processor; import org.apache.kafka.streams.process

第七章7.1 資料清洗--將從網站上爬去的資料進行清洗然後轉為2-grams序列輸出

#!/usr/bin/env python # _*_ coding:utf-8 _*_ import re import string from collections import OrderedD

Scrapy從json檔案載入解析規則,使一個爬蟲重複使用.並進行資料清洗

我們在scrapy框架做爬蟲的時候,對於不同規則的頁面,需要寫不同的爬蟲檔案,在這種情況下,部分程式碼需要重複書寫很不方便,對於這種問題.我們可以通過json檔案載入解析規則的方法,來解決這樣個問題. 同時在爬取到的資料中也有一些資料是我們不需要的,同時資料的型別/格式也可能不是我們需要的.

ETL專案2:大資料清洗,處理:使用MapReduce進行離線資料分析並報表顯示完整專案

ETL專案2:大資料清洗,處理:使用MapReduce進行離線資料分析並報表顯示完整專案思路同我之前的部落格的思路 https://www.cnblogs.com/symkmk123/p/10197467.html 但是資料是從web訪問的資料 avro第一次過濾觀察資料的格式,我們

[翻譯]Kafka Streams簡介: 讓流處理變得更簡單

看到一篇不錯的譯文，再推送一撥 Introducing Kafka Streams: Stream Processing Made Simple 這是Jay Kreps在三月寫的一篇文章，用來介紹Kafka Streams。當時Kafka Streams

使用pandas進行資料清洗

轉載出處：http://www.cnblogs.com/stream886/p/6021743.html 目錄：資料表中的重複值 duplicated()drop_duplicated() 資料表中的空值/缺失值 isnull()&am

數學建模_以fisheriris資料為例使用新版本神經網路工具箱feedforwardnet進行簡單實現

新版本神經網路工具箱feedforwardnet及其簡單實現勘誤：之前將文章中神經網路工具箱名字feedforwardnet寫做fitforwardnet，六個月過去才發現，失誤失誤，已緊急更正。問題：著名的Iris資料集曾被現代生物統計學之

Python同時讀取多個csv檔案，進行簡單的資料處理

#匯入相應模組 import re import os import pandas as pd import numpy as np# 讀取 10個csv 檔案 path = 'E:/round1/' files = os.listdir(path) files_csv =

kafka-streams進行簡單的資料清洗

相關推薦