DataX學習筆記-Reader外掛開發

阿新 • • 發佈：2019-01-26

DataX開發基於讀取ElasticSearch資料的Reader外掛

1、檢出DataX原始碼（git clone https://github.com/alibaba/DataX.git DataX），匯入專案，新建一個esreader的maven專案進行外掛開發。

2、在DataX安裝目錄的plugins/reader目錄下新建esreader目錄，目錄下包含plugin_job_template.json、plugin.json、esreader-0.0.1-SNAPSHOT.jar，同時在目錄下建立一個libs目錄，存放相關依賴的jar檔案。

相關程式碼：

package com.alibaba.datax.plugin.reader.esreader;

import java.net.InetSocketAddress;
import java.util.ArrayList;
import java.util.List;

import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.action.search.SearchType;
import org.elasticsearch.client.transport.TransportClient;
import org.elasticsearch.common.settings.Settings;
import org.elasticsearch.common.transport.InetSocketTransportAddress;
import org.elasticsearch.common.unit.TimeValue;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.SearchHit;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import com.alibaba.datax.common.element.Record;
import com.alibaba.datax.common.element.StringColumn;
import com.alibaba.datax.common.plugin.RecordSender;
import com.alibaba.datax.common.spi.Reader;
import com.alibaba.datax.common.util.Configuration;
import com.google.gson.Gson;
import com.umeng.es.config.EsServerAddress;

public class ESReader extends Reader {

	public static class Job extends Reader.Job {
		
		private Configuration originalConfiguration = null;
		
		@Override
		public void preCheck() {
			super.preCheck();
		}

		@Override
		public void preHandler(Configuration jobConfiguration) {
			super.preHandler(jobConfiguration);
		}
		
		@Override
		public void init() {
			this.originalConfiguration = super.getPluginJobConf();
		}
		
		@Override
		public void prepare() {
			super.prepare();
		}

		@Override
		public void post() {
			super.post();
		}
		
		@Override
		public void postHandler(Configuration jobConfiguration) {
			super.postHandler(jobConfiguration);
		}
		
		@Override
		public void destroy() {
		}

		@Override
		public List<Configuration> split(int adviceNumber) {
			List<Configuration> readerSplitConfigurations = new ArrayList<Configuration>();
			for (int i = 0; i < adviceNumber; i++) {
                        Configuration readerSplitConfiguration = this.originalConfiguration.clone();
				readerSplitConfigurations.add(readerSplitConfiguration);
			}
			return readerSplitConfigurations;
		}
		
	}
	
	public static class Task extends Reader.Task {
		
		private Configuration readerSliceConfiguration = null;
		
		private String esClusterName = null;
		
		private String esClusterIP = null;

		private Integer esClusterPort = null;
		
		private String esIndex = null;
		
		private String esType = null;
		
		private Gson gson = null;
		
		private TransportClient client = null;
		
		private Integer batchSize = null;
		
		private static final Logger LOG = LoggerFactory.getLogger(Task.class);

		@Override
		public void preCheck() {
			super.preCheck();
		}
		
		@Override
		public void preHandler(Configuration jobConfiguration) {
			super.preHandler(jobConfiguration);
		}
		
		@Override
		public void init() {
			this.readerSplitConfiguration= super.getPluginJobConf();
			this.esClusterName = readerSplitConfiguration.getString(Key.esClusterName);
			this.esClusterIP = readerSplitConfiguration.getString(Key.esClusterIP);
			this.esClusterPort = readerSplitConfiguration.getInt(Key.esClusterPort, 9300);
			this.esIndex = readerSplitConfiguration.getString(Key.esIndex);
			this.esType = readerSplitConfiguration.getString(Key.esType);
			this.batchSize = readerSplitConfiguration.getInt(Key.batchSize, 1000);
			this.gson = new Gson();
		}
		
		@Override
		public void prepare() {
			super.prepare();
			Settings settings = Settings.builder().put("cluster.name", esClusterName)
					.put("client.tansport.sniff", true).build();
			client = TransportClient.builder().settings(settings).build();
			List<EsServerAddress> serverAddress = new ArrayList<EsServerAddress>();
			String[] esClusterIPs = esClusterIP.contains(",") ? 
					esClusterIP.split(",") : new String[]{esClusterIP};
			for (int i = 0, len = esClusterIPs.length; i < len; i++) {
				serverAddress.add(new EsServerAddress(esClusterIPs[i], esClusterPort));
			}
			for (EsServerAddress address : serverAddress) {
				client.addTransportAddress(new InetSocketTransportAddress(
						new InetSocketAddress(address.getHost(), address.getPort())));
			}
		}
		
		@Override
		public void post() {
			super.post();
		}
		
		@Override
		public void postHandler(Configuration jobConfiguration) {
			super.postHandler(jobConfiguration);
		}

		@Override
		public void destroy() {
			client.close();
		}
		
		@Override
		public void startRead(RecordSender recordSender) {
			SearchResponse response = client.prepareSearch(esIndex).setTypes(esType)
					.setQuery(QueryBuilders.matchAllQuery()).setSearchType(SearchType.QUERY_THEN_FETCH)
						.setScroll(new TimeValue(60000)).setSize(batchSize).setExplain(false).execute().actionGet();
			int totalSize = 0;
			Record record = null;
			while (true) {
				SearchHit[] hitArray = response.getHits().getHits();
				SearchHit hit = null;
				for (int i = 0, len = hitArray.length; i < len; i++) {
					record = recordSender.createRecord();
					hit = hitArray[i];
					record.addColumn(new StringColumn(gson.toJson(hit.getSource())));
					recordSender.sendToWriter(record);
				}
				if (hitArray.length == 0) break;
				totalSize += hitArray.length;
				response = client.prepareSearchScroll(response.getScrollId())
								.setScroll(new TimeValue(60000)).execute().actionGet();
			}
			LOG.info("total size : " + totalSize);
		}
		
	}
	
}

package com.alibaba.datax.plugin.reader.esreader;

public final class Key {
	
	/*
	 * @name:  esClusterName
	 * @description:  elastic search cluster name
	*/
	public final static String esClusterName = "esClusterName";
	
	/*
	 * @name:  esClusterIP
	 * @description:  elastic search cluster ip
	*/
	public final static String esClusterIP = "esClusterIP";
	
	/*
	 * @name:  esClusterPort
	 * @description:  elastic search cluster port
	*/
	public final static String esClusterPort = "esClusterPort";
	
	/*
	 * @name: esIndex 
	 * @description:  elastic search index
	 */
	public final static String esIndex = "esIndex";
	
	/*
	 * @name: esType
	 * @description:  elastic search type
	 */
	public final static String esType = "esType";
	
	/*
	 * @name: batchSize
	 * @description: elasticsearch batch size
	 */
	public final static String batchSize = "batchSize";
	
}

plugin_job_template.json

{
    "name": "esreader",
    "parameter": {
        "esClusterName": "",
        "esClusterIP": "",
        "esClusterPort": "",
        "esIndex": "",
        "esType": "",
        "batchSize": ""
    }
}

plugin.json

{
    "name": "esreader",
    "class": "com.alibaba.datax.plugin.reader.esreader.ESReader",
    "description": {
        "useScene": "only for developer test.",
        "mechanism": "use datax framework to transport elastic search data to channel.",
        "warn": "Never use it in your real job."
    },
    "developer": "wulin"
}

3、根據python bin/datax.py -r esreader -w hdfswriter生成一個job/es_to_hdfs.json檔案，填寫相關內容。

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "esreader", 
                    "parameter": {
                        "batchSize": "1000", 
                        "esClusterIP": "192.168.0.114", 
                        "esClusterName": "elasticsearch", 
                        "esClusterPort": "9300", 
                        "esIndex": "data", 
                        "esType": "t1"
                    }
                }, 
                "writer": {
                    "name": "hdfswriter", 
                    "parameter": {
                        "column": [{"name":"data","type":"string"}], 
                        "defaultFS": "hdfs://192.168.0.114:9000", 
			"compress": "gzip",
                        "fieldDelimiter": ",", 
                        "fileName": "esdata", 
                        "fileType": "text", 
                        "path": "/user/data/es", 
                        "writeMode": "append"
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": "1"
            }
        }
    }
}

4、執行python bin/datax.py job/es_to_hdfs.json

DataX學習筆記-Reader外掛開發

DataX開發基於讀取ElasticSearch資料的Reader外掛 1、檢出DataX原始碼（git clone https://github.com/alibaba/DataX.git DataX），匯入專案，新建一個esreader的maven專案進行外掛開發。

DataX學習筆記-Writer外掛開發(續)

之前那篇筆記基於的DataX版本比較低，現換成git上最新版本的DataX重新開發基於將資料寫入ElasticSearch的Writer外掛 1、檢出DataX原始碼（git clone https://github.com/alibaba/DataX.git Data

DataX學習筆記-Writer外掛開發

本文主要是基於將資料寫入ElasticSearch開發的Writer外掛 1、檢出DataX原始碼（svn checkout http://code.taobao.org/svn/datax/trunk） 2、在com.taobao.datax.plugins.writ

DataX安裝部署-Reader外掛二次開發

DataX DataX 是阿里巴巴集團內被廣泛使用的離線資料同步工具/平臺，實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種

Hibernate單表映射學習筆記之一——hibernalnate開發環境配置

pass ransac over 構造方法參數會話 signed rate ets 　　1、什麽是ORM？　　Object/Relationship Mapping：對象/關系映射　　2、寫SQL語句不好之處：　　（1）不同數據庫使用的SQL語法不同（PL/

【安全牛學習筆記】Web開發中的涉及到的權限問題

信息安全 web security+ Web開發中的涉及到的權限問題1.常見的觸發場景2.漏洞原理3.漏洞危害4.如何避免&修復漏洞-------------------------------------------------------------------------------

Egret學習筆記.2 (Egret開發環境)

height basic 編寫 -s dev per ret 環境簡單的配置Egret的開發環境是很簡單的，去https://www.egret.com/products/engine.html下載然後基本就是下一步下一步，安裝好了就好了，裝好了選擇Wing組件，

Java學習筆記一:Java開發環境搭建

默認安裝進制二進制文件 text ase www. java學習 span home Java開發環境搭建第一步：安裝JDK 1.下載地址:http://www.oracle.com/technetwork/java/javase/downloads 非

JavaWeb學習筆記(四)——Servlet開發

一、Servllet是sun公司提供的一門用於開發動態web資源的技術簡單來說，Servlet是實現了servlet介面的java程式二、servlet的執行過程 Servlet程式是由web伺服器呼叫，web伺服器收到客戶端的servlet訪問請求後： 1）web伺服器首先檢查

mybatis學習筆記2——mybatis開發dao層

原始dao開發方法在原始的dao層的開發方法中，程式設計師需要自己寫dao的介面和實現類。需要向dao實現類中注入SqlSessionFactory，在方法體內通過SqlSessionFactory來建立SqlSession User.xml <?xml v

[基礎篇]ESP8266-NonOS學習筆記(一)之開發環境搭建

上篇文章我們瞭解了ESP8266到底是個什麼“東西”，瞭解了ESP8266在這個萬物互聯時代有哪些優勢，那我們不能光是瞭解，我們還需要去深入的學習一下，爭做物聯網時代的弄潮兒~繼往開來第二篇，本篇文章主要介紹一下幾種常見的ESP8266開發方式，感覺現在不管是學習硬體開發還是軟體開發，第一節課都是先學習一下開

學習筆記八介面開發，上傳下載，日誌

一.requests模組 1.get和post請求 import requests url='http://127.0.0.1:8999/api/upload' data = {'username':'testuser1','passwd':'111111'} r = requests.get(u

[1]Python學習筆記---Python的開發環境：Anaconda3

最近在學習Python，Python的最經典的開發環境應該是Anaconda3 。Anaconda是python科學計算的整合。Python易用，但用好卻不易，其中比較頭疼的就是包管理和Python不同

TypeScript 學習筆記之外掛安裝

關於型別定義檔案的管理工具，經歷了 tsd、typings 兩代進化，現在官方推薦的方式是使用 npm 進行管理 1.安裝之前，先用bower安裝相應外掛例如安裝CKEditor ：

OpenCV學習筆記_0：開發環境配置

Win10 + Visual studio 2015 + OpenCV3.4.1 下載，安裝Visual studio 2015 下載，安裝OpenCV3.4.1 配置OpenCV

資料整合學習筆記 --- DataX學習筆記

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

Gradle學習筆記使用外掛

前面說了不少內容，但是我看了一下Gradle官方文件內容太多太詳細。其中大部分內容其實我們不需要知道。一般情況下我們應用一部分外掛就可以了。自己編寫Gradle任務的情況並不多見。 Java外掛在build.gradle檔案中新增以下一句，即可啟用Ja

Lua學習筆記1：開發環境搭建(windows和linux)

一 windows 1 下載安裝“Lua For Windows” 2 安裝 3 編碼開啟SciTE，輸入： print("hello,lua!"); 然後儲存，字尾名一定要是".lua",不然無法執行 4 執行 Tools-》Go,或者快捷鍵F5 二

[ASP.NET學習筆記之六]開發高效能的ADO.NET應用

開發高效能的ADO.NET應用 ADO.NET概述面向連線模型 lADO.net 1.x讀取資料時必須儲存穩定的連線而且在每個連線上只能使用一個DataReader。 lADO.net 2.0無此限制！一個連線可以開啟多個DataReader ADO.NET效能最佳

php 學習筆記之搭建開發環境(mac版)

Mac 系統預設集成了很多開發工具,其中就包括 php 所需要的一些軟體工具. 下面我們將搭建最簡單的 php 開發環境,每一步都會驗證上一步的操作結構,請一步一步跟我一起搭建吧! web 伺服器之 apache apache 是一款 web 伺服器,用於執行 php 檔案,除了 apache 外也可以是 n

DataX學習筆記-Reader外掛開發

相關推薦