Hadoop使用DATAJOIN軟體包連結不同來源的資料

阿新 • • 發佈：2018-12-24

具體參見《Hadoop in action》
這裡說一下幾個問題：這幾個問題在stackoverflow 得到了解決
（1）如何輸入多個檔案

將多個檔案放入一個資料夾，輸入路徑寫資料夾的路徑
MultipleInputs.addInputPath(job, new Path(args[0]), TextInputFormat.class,MapClass.class);

（2）TaggedWritable要定義一個無參的建構函式，後面reduce反射的時候會用到

（3）呼叫data.readFields的時候，data有可能是空，而且並不知道data的型別，所以在TaggedWritable的write方法序列化data之前，儲存一下data的類名，然後在readFields檢查。

程式碼如下：

package Chapter5;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.util.Set;

import javax.lang.model.SourceVersion;
import javax.print.DocFlavor.STRING;

import org.apache.hadoop.conf.Configuration;
import 
 org.apache.hadoop.conf.Configured;
import org.apache.hadoop.contrib.utils.join.DataJoinMapperBase;
import org.apache.hadoop.contrib.utils.join.DataJoinReducerBase;
import org.apache.hadoop.contrib.utils.join.TaggedMapOutput;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hdfs.util.EnumCounters.Map;
import 
 org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat;
import org.apache.hadoop.mapred.lib.IdentityReducer;
import org.apache.hadoop.mapred.lib.MultipleInputs;
import org.apache.hadoop.util.ReflectionUtils;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class DataJoin extends Configured implements Tool {

    public static class TaggedWritable extends TaggedMapOutput{

        private Writable data;

        public TaggedWritable() {
            this.tag=new Text();
        }

        public TaggedWritable(Writable data) {
            this.tag=new Text("");
            this.data = data;
        }

        public void readFields(DataInput in) throws IOException {  
            this.tag.readFields(in);  
            String dataClz = in.readUTF();  
            if (this.data == null  || !this.data.getClass().getName().equals(dataClz)) {  
                try {  
                    this.data = (Writable) ReflectionUtils.newInstance(Class.forName(dataClz), null); 
                } catch (ClassNotFoundException e) {  
                    e.printStackTrace();  
                }  
            }  
            this.data.readFields(in);  
        }  

        @Override
        public void write(DataOutput out) throws IOException {
            // TODO Auto-generated method stub

            this.tag.write(out);
            out.writeUTF(this.data.getClass().getName());  
            this.data.write(out);
        }

        @Override
        public Writable getData() {
            // TODO Auto-generated method stub
            return data;
        }
        public void setData(Writable data){
            this.data=data;
        }
    }
    public static class MapClass extends DataJoinMapperBase{

        @Override
        protected Text generateGroupKey(TaggedMapOutput arg0) {
            // TODO Auto-generated method stub

            String line=((Text)arg0.getData()).toString();
            String tokens []=line.split(",");
            return new Text(tokens[0]);
        }

        @Override
        protected Text generateInputTag(String arg0) {
            // TODO Auto-generated method stub

            String datasource=arg0.split("-")[0];
            return new Text(datasource);
        }

        @Override
        protected TaggedMapOutput generateTaggedMapOutput(Object arg0) {
            // TODO Auto-generated method stub
            TaggedMapOutput res=new TaggedWritable((Text)arg0);
            res.setTag(this.inputTag);
            return res;
        }

    }

    public static class Reduce extends DataJoinReducerBase{

        @Override
        protected TaggedMapOutput combine(Object[] tags, Object[] values) {
            // TODO Auto-generated method stub

            if(tags.length<2)return null;

            String res="";
            for(int i=0;i<values.length;i++){
                if(i>0)res+=",";
                TaggedWritable tmp=(TaggedWritable)values[i];
                String line=((Text)tmp.getData()).toString();
                String tokens[]=line.split(",",2);
                res+=tokens[1];
            }
            TaggedWritable retv=new TaggedWritable(new Text(res));
            retv.setTag((Text)tags[0]);
            return retv;
        }

    }
    public int run(String[] args) throws Exception{
        // TODO Auto-generated method stub
        Configuration configuration=getConf();
        JobConf job=new JobConf(configuration,DataJoin.class);

        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        job.setJobName("DataJoin");
        job.setMapperClass(MapClass.class);
        job.setReducerClass(Reduce.class);
        job.setOutputFormat(TextOutputFormat.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(TaggedWritable.class);
        job.set("mapred.textoutputformat.separator", ",");
        JobClient.runJob(job);
        return 0;
    }
    public static void main(String[] args) throws Exception{
        // TODO Auto-generated method stub
        int res=ToolRunner.run(new Configuration(), new DataJoin(), args);
        System.exit(res);
    }

}

Hadoop使用DATAJOIN軟體包連結不同來源的資料

具體參見《Hadoop in action》這裡說一下幾個問題：這幾個問題在stackoverflow 得到了解決（1）如何輸入多個檔案將多個檔案放入一個資料夾，輸入路徑寫資料夾的路徑 MultipleInputs.addInputPath(job

多功能資料採集卡 USB1208LS 所配套的 Dasylab 多功能組太軟體包圖解

USB1208LS、USB1608FS，本身是多功能資料採集模組，有配套的採集軟體和二次開發庫，不但具備所有資料採集卡的功能，而且通過結合Dasylab組太軟體，衍生出更多的應用。主要技術特點： DASYLab資料採集軟體提供工具和函式方便使用者在短時間內建立複雜應用，無需程式設計。軟體提

網路資料包在不同網路環境下的丟失表現

最近專案在網路資料發包和收包的時候出了問題，連線是採用Tcp協議進行的。經過分析問題應該是服務端的傳送佇列溢位或者是客戶端的接收佇列溢位造成的資料丟失。詳細情況如下。首先客戶端在登入到服務端的時候會收到服務端傳送過來的大量資料，其中有一類資料為長資料報文，資料量比較大，每個資

怎樣自己製作Dynamo軟體包(1)——在GitHub上尋找原始資料

共同精進Revit及程式設計開發技能興趣群：660319009GitHub上很多大牛共享的原始碼，其中Dynamo的原始碼也在上面，在裡面有個Dynamo的軟體包製作方法：https://github.com/DynamoDS/Dynamo從上面的連結中，可以找到案例以及原始

分針網——每日推薦：各路神仙關於閉包概念不同解讀

閉包寫在前面：閉包是被講爛的內容，但是當我不了解的情況下，看過很多教程，聽過很多道理，還是無法完全理解閉包這個東西。所以想要寫一篇比較詳細，前端小白也能夠真正理解閉包概念的幹貨文章，本文參考很多閉包資料，希望能真正把閉包這個東西講清楚，

pip指定位置安裝軟體包

由於電腦上安裝了多個版本的pip，以及不同的pip對應不同的python，因此有時候使用pip install安裝某個包時，可能會沒有安裝在想要的位置。具體而言，在我電腦上，執行pip --version時，輸出如下 pip 9.0.1 from /opt/anaconda3/lib/

Android SDK Manager軟體包下載安裝相關問題的解決辦法

一、加快Packages下載速度問題描述： Android SDK Manager 無法下載更新，或者更新速度超慢，或者待安裝包列表不顯示解決方法： &n

C 兩個連結串列中資料節點的資料域為一個字母，其中L1包含L2，在L1中找出與L2相等的字串，並將其逆置

前面相關操作在這呢，這個函式依託於此 //結構體 typedef struct Node { ElementType data; struct Node * next; } LNode, * LinkNode; //兩個連結串列中資料節點的資料域為一個字母 http

bzoj 4196 [Noi2015]軟體包管理器 (樹鏈剖分+線段樹）

4196: [Noi2015]軟體包管理器 Time Limit: 10 Sec Memory Limit: 512 MBSubmit: 2852 Solved: 1668[Submit][Status][Discu

pandas.DataFrame.from_dict官方文件連結（通過資料字典建立df表，看下面的例子就能明白了）

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.from_dict.html pandas.DataFrame.from_dict classmethod DataFrame.from_d

yum新增第三方軟體包

前言當我們想安裝一些yum源沒有的第三方軟體時，使用yum install 並不能找到想安裝軟體的相關資訊，這個時候如果用rpm -ivh安裝時會出現一系列問題，比如說：依賴包缺失，無法安裝軟體，又或者軟體缺失無法安裝依賴包這樣的死迴圈。這個時候就需要新增第三方軟體包了這裡方便

ubuntu 16.04 刪除不常用軟體包

新建指令碼檔案，編輯加入以下內容： #! /bin/bash sudo apt-get purge -y libreoffice-common sudo apt-get purge -y unity-webapps-common sudo apt-get purge -y thunder

軟體包及yum倉庫建設

軟體包管理程式包的來源獲取程式包的途徑： (1) 系統發版的光碟或官方的伺服器 CentOS映象： https://www.centos.org/download/ http://mirrors.aliyun.com http://mirrors.sohu.com http://

STM32標準庫及的Keil軟體包下載

在安裝好Keil開發工具後，還需要分別安裝STM32相關的軟體包及相關的函式庫。由於官網一般下載速度較慢，將常用及標準庫上傳在網盤上，可自行下載。 Keil軟體包連結：https://pan.baidu.com/s/1Uh1J0L9gZSIWKtDzocQWJA&n

如何在Linux中輕鬆刪除從源安裝的軟體包?

第1步：安裝Stow 在這個例子中，我們使用的是CentOS，因此我們需要擴充套件的EPEL庫。您可以使用以下命令安裝它們：yum install epel-release然後，下面這段命令：yum install stow按Y確認安裝：現在已經安裝了stow，我們必須選擇儲存包檔案的位

資料處理--reshape2包（長寬資料）

寬資料 ozone wind temp 1 23.62 11.623 65.55 2 29.44 10.267 79.10 3 59.12 8.942 83.90 4 59.96 8.794 83.97 長資料 variable value 1 ozone 23.

Day8 linux軟體包管理

軟體包的兩種形式 qq.tar.gz (需要編譯原始碼翻譯成二進位制）/ rpm （直接安裝） rpm的檔名分為5部分 name名稱 version版本編號 release釋出次數 archite

錯誤：軟體包：glibc-headers-2.17-222.el7.x86_64 需要：kernel-headers

centos7虛擬機器更新系統庫出現：錯誤：軟體包：glibc-headers-2.17-222.el7.x86_64 (base) 需要：kernel-headers 錯誤：軟體包：

Luogu P2146 軟體包管理器（樹鏈剖分+線段樹）

題意給定\(n\)個軟體包，每個軟體包都有一個依賴軟體包，安裝一個軟體包必須安裝他的依賴軟體包，解除安裝一個軟體包必須先解除安裝所有依賴於它的軟體包。給定\(m\)此操作，每次一個操作\(install/unistall\)表示安裝或者解除安裝。題解可以通過簡單畫圖看出，在這個樹形結構的依賴層次圖

linux下升級軟體包版本等方法

Linux環境下，要想檢視某個軟體（package）是否安裝。 rpm包方式安裝的，使用 rpm -qa | grep “軟體或者包的名字“。

Hadoop使用DATAJOIN軟體包連結不同來源的資料

相關推薦