MR任務之後提交Hadoop批量索引任務

阿新 • • 發佈：2019-01-03

MR程式執行成功之後,生成的JSON資料放入指定的目錄,然後利用HTTP的POST,向druid.io的overload上提交任務

    private static void submitHadoopIndexTask(FileSystem fileSystem, String dataSource, String
            intervals, List<Path> outputPaths, String segmentGranularity) {
        // 任務完成之後,提交一個hadoopIndex任務
        List<String 
> paths = new ArrayList<>();
        for (Path outputPath : outputPaths) {
            String tmpPath = getPaths(fileSystem, outputPath);
            if (tmpPath != null) paths.add(tmpPath);
        }
        String path = String.join(",", paths);
        //增加延遲到當前時間戳計算的資料
        if (path != 
 null && !path.equals("")) {
            String json = HadoopIndexClient.easyJson(dataSource, path, intervals, segmentGranularity, queryGranularity);
            HttpClientUtil.post(druidTask, json);
        } else {
            System.out.println("Paths are null");
        }
    }

其hadoop-index的json描述檔案可以根據設定的引數進行修改:

package net.icsoc.cti.report.druid;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.TypeReference;
import net.icsoc.cti.report.CtiReportBatch;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.text.SimpleDateFormat;
import java.util.*;

/*******************************************************************************
 * 版權資訊：北京中通天鴻武漢分公司
 * @author xuchang
 * Copyright: Copyright (c) 2007北京中通天鴻武漢分公司,Inc.All Rights Reserved.
 * Description:
 ******************************************************************************/
public class HadoopIndexClient {

    public static String easyJson(String dataSource, String paths, String interval, String segmentGranularity, String queryGranularity) {
        InputStream inputStream = null;
        BufferedReader reader = null;
        try {
            inputStream = CtiReportBatch.class.getClassLoader().getResourceAsStream("index-hadoop.json");
            reader = new BufferedReader(new InputStreamReader(inputStream));
            StringBuffer json = new StringBuffer();
            String s;
            while ((s = reader.readLine()) != null) {
                json.append(s);
            }
            Map<String, Object> map = JSON.parseObject(json.toString(), new TypeReference<Map<String, Object>>() {
            });
            //對就送資料做一些修改
            Map<String, Object> spec = (Map<String, Object>) map.get("spec");
            Map<String, Object> dataSchema = (Map<String, Object>) spec.get("dataSchema");
            dataSchema.put("dataSource", dataSource);
            Map<String, Object> granularity = (Map<String, Object>) dataSchema.get("granularitySpec");
            List<String> intervals = new ArrayList<>();
            intervals.add(interval);
            granularity.put("intervals", intervals);
            granularity.put("segmentGranularity", segmentGranularity);
            granularity.put("queryGranularity", queryGranularity);
            Map<String, Object> ioConfig = (Map<String, Object>) spec.get("ioConfig");
            Map<String, Object> inputSpec = (Map<String, Object>) ioConfig.get("inputSpec");
            inputSpec.put("paths", paths);
            return JSON.toJSONString(map);
        } catch (Exception e) {
            //處理異常
            System.out.println(e.getMessage());
        } finally {
            //關閉流
            if (inputStream != null) {
                try {
                    inputStream.close();
                } catch (Exception e) {
                    System.out.println(e.getMessage());
                }
            }
            if (reader != null) {
                try {
                    reader.close();
                } catch (Exception e) {
                    System.out.println(e.getMessage());
                }
            }
        }
        return null;
    }

    public static void main(String[] args) {
        SimpleDateFormat format = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss.SSSXXX");
        format.setCalendar(Calendar.getInstance(TimeZone.getTimeZone("GMT")));
        System.out.println(format.format(new Date()));
    }
}

利用HTTPClient實現任務提交:

package net.icsoc.cti.report.utils;

import net.icsoc.cti.report.druid.HadoopIndexClient;
import org.apache.commons.lang.StringUtils;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.HttpStatus;
import org.apache.http.NameValuePair;
import org.apache.http.client.HttpClient;
import org.apache.http.client.entity.UrlEncodedFormEntity;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.entity.StringEntity;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.message.BasicNameValuePair;
import org.apache.http.params.CoreConnectionPNames;
import org.apache.http.util.CharArrayBuffer;
import org.apache.http.util.EntityUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.InputStreamReader;
import java.io.Reader;
import java.util.ArrayList;
import java.util.List;

/*******************************************************************************
 * 版權資訊：北京中通天鴻武漢分公司
 * @author xuchang
 * Copyright: Copyright (c) 2007北京中通天鴻武漢分公司,Inc.All Rights Reserved.
 * Description: MapReduce使用oss的工具類
 ******************************************************************************/
public class HttpClientUtil {
    private static Logger logger = LoggerFactory.getLogger(HttpClientUtil.class);

    public static String post(String url, String json) {
        HttpClient httpclient = new DefaultHttpClient();
        String content = null;
        try {
            HttpPost httppost = new HttpPost(url);
            StringEntity postEntity = new StringEntity(json);
            postEntity.setContentEncoding("UTF-8");
            postEntity.setContentType("application/json");//傳送json資料需要設定contentType
            httppost.setEntity(postEntity);
            // 執行
            HttpResponse response = httpclient.execute(httppost);
            HttpEntity resEntity = response.getEntity();
            content = EntityUtils.toString(resEntity);//返回json格式資料
            if (StringUtils.isEmpty(content)) {
                logger.error("[httpUtils] 返回的結果型別不包含結果  返回的結果為空");
            }
            logger.debug("[httpUtils] load TaskInfo success");
            // 關閉連線,釋放資源
        } catch (Exception e) {
            e.printStackTrace();
            logger.info("access api url wrong!!", e.getMessage());
        } finally {
            httpclient.getConnectionManager().shutdown();
        }
        return content;
    }
}

MR任務之後提交Hadoop批量索引任務

MR程式執行成功之後,生成的JSON資料放入指定的目錄,然後利用HTTP的POST,向druid.io的overload上提交任務 private static void submitHadoopIndexTask(FileSystem fileS

Hadoop 學習筆記八任務遠端提交--Java遠端提交

Hadoop執行計算任務，大概有以下幾種方式把MapReduce任務打包到jar裡，上傳到伺服器，用命令列啟動通過Java向Hadoop叢集提交MapReduce任務伺服器的hadoop配置拷

hadoop 把mapreduce任務從本地提交到hadoop集群上運行

bsp ole 不能 href print 運行方式 examples jar iss MapReduce任務有三種運行方式： 1、windows（linux）本地調試運行，需要本地hadoop環境支持 2、本地編譯成jar包，手動發送到hadoop集群上用hadoop j

Hadoop查殺任務

#Yarn查殺任務# 1、先查詢，顯示引數、任務數量、以及任務列表，Application-Id、Application-Name、Application-Type、User、Queue、State、Final-State、Progress、Tracking-URL yarn applica

實訓任務02：Hadoop基礎操作.md

實訓任務02：Hadoop基礎操作實訓1:建立測試檔案上傳HDFS,並顯示內容需求說明：在本地計算機上建立測試檔案helloHadoop.txt,輸入任意3行記錄。將helloHadoop.txt上傳到HDFS目錄/user/root/filetest/下

為什麼執行spark任務會在hadoop歷史伺服器上看到，而在spark8080埠頁面和work資料夾下面看不到？

通過oozie任務排程工具執行一個spark任務：spark程式：oozie任務：程式成功執行了，但在8080埠頁面看不到，在hadoop 19888歷史伺服器頁面可以看到這是怎麼回事？將上面那個spark程式打成jar包使用spark-sumbit --class 主類 .

java併發程式設計——Future實現“任務的提交”與 "任務的執行"相分離

本文轉自老馬程式設計 Java併發包提供了一套框架，大大簡化了執行非同步任務所需的開發，本節我們就來初步探討這套框架。在之前的介紹中，執行緒Thread既表示要執行的任務，又表示執行的機制，而這套框架引入了一個”執行服務”的概念，它將”任務的提交”和”任務

關於JS下大批量非同步任務按順序執行解決方案一點思考

前言最近需要做一個瀏覽器的, 支援大體積檔案上傳且要支援斷點續傳的上傳元件, 本來以為很容易的事情, 結果碰到了一個有意思的問題: 迴圈執行連續的非同步任務, 且後一個任務需要等待前一個任務的執行狀態這麼說可能有點空泛, 以我做的元件舉例: 這個元件本意是為了上傳大體積視訊, 和支援斷點續傳, 因

spark history server叢集配置與使用（解決執行spark任務之後沒有顯示的問題）

在你的spark路徑的conf檔案中，cp拷貝spark-defaults.conf.template為spark-defaults.conf 並在檔案後面加上 spark.eventLog.enabled true spark.eventLog.di

hadoop的mapreduce任務的執行流程

hadoop2.x的三大核心：mapreduce 、hdfs以及yarn ，其中核心之一mapreduce，利用了分而治之的思想，Map（對映）和 Reduce（歸約），分散式多處理然後進行彙總的思想，比如：清點撲克牌把裡面的花色都分開，一個人清點那麼可能耗時4

hadoop細節---reduce任務數量

1.reduce任務的數量並非由輸入資料的大小決定，而是特別指定的。可以設定mapred.tasktracker.map.task.maximum和mapred.tasktracker.reduce.task.maximum屬性的值來指定map和reduce的數量。 2.

hadoop 中FIFO任務分配流程簡化描述

// map任務分配 for (int i=0; i < availableMapSlots; ++i) { for (JobInProgress job : jobQueue) { 該作業有可分的任務，當前map slot分配給它。退出此次迴圈，進行下一個map slot

slurm作業管理：一次提交執行多個任務

針對搶佔式的作業排程系統，如果分配節點時候是獨佔節點，那麼每次申請的資源最少就是1個節點。如何實現一次提交作業，計算多個任務呢？（包括序列、openmp或mpi的任務）。最簡單的方式就是按照自己的需求寫一個執行指令碼，然後通過作業管理系統提交即可。下面給出一個具

大批量定時任務管理利器HashedWheelTimer

和同事討論一個定時稽核的需求，運營設定稽核通過的時間，到了這個時間之後，相關內容自動稽核通過，本是個小的需求，但是考慮到如果需要

Linux任務計劃、周期性任務執行

linux任務計劃、周期性任務執行 crontab概論未來的某時間點執行一次某任務：at, batch 周期性運行某任務：crontab 執行結果：會通過郵件發送給用戶查看郵箱服務是否開啟：（25端口） ~]# netstat -tnlp ~]# ss -tnl本地電子郵件服務：smtp：simple m

【Linux相識相知】任務計劃和周期性任務

open fonts 同時不存在 runt 逗號內容 bsp 事情在我們的生活中，有的工作是例行的，例如每年一次加薪、每年給女朋友過一次生日、每天上班都要打卡等，有的工作是臨時發生的，例如明天朋友要來訪，你需要準備午餐等等。像很多例行的工作，你一旦忙起來就很容易忘

小陳現有2個任務A,B要完成,每個任務分別有若幹步驟如下一道網上沒啥題解的難題（至少我是這麽覺得的）

eid -c 吃飯計算成了題解滿足步驟順序小陳現有2個任務A,B要完成,每個任務分別有若幹步驟如下：A=a1->a2->a3,B=b1->b2->b3->b4->b5.在任何時候,小陳只能專心做某個任務的一個步驟.但是如果願

Linux 任務計劃，周期性任務執行之基本概念

Linux任務計算、周期性任務執行的簡單未來的某時間點執行一次某任務的命令有at、batch周期性運行某任務的命令是crontab這些命令的執行結果會通過郵件發送給用戶SMTP這個協議只能發送郵件POP3或者IMAP4才是將郵件從郵件服務器中取出的協議MUAMail User Agent 用戶收發郵件的工具程

Linux任務計劃、周期性任務執行之本地電子郵件服務/mailx

Linux 任務計劃周期性任務執行簡單操作 Linux系統內部有個郵件服務功能/var/spool/mailCentOS6、7默認是開啟郵件服務的-s 指定郵件主題-a file_name 添加附件-r 指定郵件來源-u 指定郵件目的Hello world是郵件的主題這個郵件是發給root的。 E

Linux任務計劃、周期性任務執行之cron/crontab

Linux crontab的簡單操作周期性任務計劃需要一個程序包，不間斷的監視時間。CentOS7需要主程序包：cronie(提供crond守護進程及相關輔助工具)周期性任務計劃工作首先需要確保crond守護進程正產運行crond需要使用專用的配置文件，此文件有固定的格式，不建議使用文本編輯器直接編輯此文件，

MR任務之後提交Hadoop批量索引任務

相關推薦