MR操作hbase的一點心得（含hbase表拷貝樣例程式碼）

阿新 • • 發佈：2019-01-01

最近在寫基於hbase的MR程式。總結如下：

1、使用TableMapper來讀取表

2、寫入表的第一種方式是用TableMapReduceUtil.initTableReducerJob的方法，這裡既可以在map階段輸出，也能在reduce階段輸出。區別是Reduce的class設定為null或者實際的reduce 以下是一個表copy的例子：

package com.run.test;

import java.io.IOException;
import java.util.List;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.util.Tool;

public class TableCopy extends Configured implements Tool{
	
	static class CopyMapper extends TableMapper<ImmutableBytesWritable,Put>{

		@Override
		protected void map(ImmutableBytesWritable key, Result value,
				Context context) throws IOException, InterruptedException {
			// TODO Auto-generated method stub
			//將查詢結果儲存到list
			List<KeyValue> kvs =  value.list();
			Put p = new Put();
			//將結果裝載到Put
			for(KeyValue kv : kvs)
				p.add(kv);
			//將結果寫入到Reduce
			context.write(key, p);
		}
		
	}
	
	public static Job createSubmittableJob(Configuration conf, String[] args)throws IOException{
		String jobName = args[0];
		String srcTable = args[1];
		String dstTable = args[2];
		Scan sc = new Scan();
		sc.setCaching(10000);
		sc.setCacheBlocks(false);
		Job job = new Job(conf,jobName);
		job.setJarByClass(TableCopy.class);
		job.setNumReduceTasks(0);
		TableMapReduceUtil.initTableMapperJob(srcTable, sc, CopyMapper.class, ImmutableBytesWritable.class, Result.class, job);
		TableMapReduceUtil.initTableReducerJob(dstTable, null, job);
		return job;
		
	}
	
	@Override
	public int run(String[] args)throws Exception{
		Job job = createSubmittableJob(getConf(), args);
		return job.waitForCompletion(true)? 0 : 1;
	}
	
}

3、寫入表的方式還有一種，就是呼叫hbase的原生api，即HTable.put的方式寫入資料（這種方式適合寫少量資料，或者統計後的結果）

MR操作hbase的一點心得（含hbase表拷貝樣例程式碼）

最近在寫基於hbase的MR程式。總結如下： 1、使用TableMapper來讀取表 2、寫入表的第一種方式是用TableMapReduceUtil.initTableReducerJob的方法，這裡既可以在map階段輸出，也能在redu

Hbase安裝配置（含分散式ZooKeeper）

環境說明系統為CentOS 6.0 192.168.255.128 =》 server01 192.168.255.130 =》 server02 192.168.255.131 =》 server03 /etc/hosts檔案中有這些IP和域名的對映關係配

關於 PHPMailer 郵件發送類的使用心得（含多文件上傳）

登錄 subst PE 絕對路徑 cde focus test explode 大量 Is this important for send mail PHPMailer 核心文件 class.phpmailer.php class.phpmaileroauth.

python操作MySQL資料庫心得（numpy陣列寫入資料庫）

最近突發奇想，想把以前用Matlab實現的對高頻彩的開獎資料進行抓取並儲存到本地的專案重新用python做一遍。加上前段時間學習的MySQL，想將讀取回來的開獎資料存放到資料庫裡試試看。廢話不多說，實操看看。網頁下載器這部分就

資料結構-鏈隊的基本操作函式的實現（含全部程式碼）

主要包含以下函式： InitQueue(LinkQueue &Q) 引數：鏈隊Q 功能：初始化時間複雜度O(1) EnQueue(LinkQueue &Q,QElemType e) 引數：鏈隊Q,元素e 功能：將e入隊時間複雜度

使用hexo+GitHub搭建個人博客的心得（含教程）

文章標題無法訪問重要 itl per 鏈接 fig.yml 註意 source Author Email Yaoyao Liu [email protected] 前言對於廣大CS專業的學生和碼農，找一個地方寫博客，記錄一些編程、配置環境、閱讀論文

使用hexo+GitHub搭建個人部落格的心得（含教程）

Author Email Yaoyao Liu [email protected] 前言對於廣大CS專業的學生和碼農，找一個地方寫部落格，記錄一些程式設計、配置環境、閱讀論文的心得體會是一個很常見的習

類比電子技術的一點心得（轉）

一、模擬大神的幾點學習建議（教材）我學習模電有一段時間了，向大家推薦幾本自認為的"寶典"，談下自己使用它們的感受以及在學習模電過程中的體會，供後來者參考： 1. 拉扎維的《模擬CMOS積體電路設計》，我們研二模電課的教材，汪寧老師把這門課講得可圈可點。當時沒意識到

Java操作Excel一點資料（自用）

利用 JAVA 操作 EXCEL 檔案 http://www.ibm.com/developerworks/cn/java/l-javaExcel/ java操作Excel（Jakarta_POI） http://blog.csdn.net/hecal/article/de

轉:SQL SERVER 2014 安裝圖解（含 SQL SERVER 2014 安裝程序共享）

baidu ref 密碼步驟 ase share 配置實例 try 開篇介紹 2015年1月1日，新的一年開始之際，本來應該好好做點有意義的事情來跨個年的。結果，老習慣 - 睡覺之前一定要折騰一下電腦，說幹就幹，給新到的 DELL 電腦裝虛機，下載 SQL SERV

編程之法：面試和算法心得（最大連續子數組和）

參考否則 ++ 例子返回 log 遍歷方法時間內容全部來自編程之法：面試和算法心得一書，實現是自己寫的使用的是java 題目描述輸入一個整形數組，數組裏有正數也有負數。數組中連續的一個或多個整數組成一個子數組，每個子數組都有一個和。求所有子數組的和的最大值，要

Redis系列--內存淘汰機制（含單機版內存優化建議）

del dbn amp 一段最簡 nal imp 同學博客 https://blog.csdn.net/Jack__Frost/article/details/72478400?locationNum=13&fps=1 每臺redis的服務器的內存都是有限的，而

pycharm5漢化破解啟用教程（含安裝包/漢化包下載）

本安裝教程無圖，建議下載安裝檔案後按照提示一步一步來，確認無誤後往下進行下一步防止安裝失敗！【pycharm下載】 1、右擊軟體壓縮包選擇解壓。下載地址連結：https://pan.baidu.com/s/1LsnovUDrs9qbjXpOvC82Mg 提取碼：7lth

solidworks2014 64bit破解版（含常規及Win10下啟用工具）及重新啟用

Solidwroks 2014是一款非常出色的3D CAD工具，能夠迅速3D建模，模擬機械運動，渲染設計效果，以及輸出常規的工程圖圖紙。尤其是在機械設計方面，其設計效率非常規CAD可以。總而言之，是生產製造業的必備工具軟體。本套安裝程式中含有常規破解啟用工具，另外還含有用於WIN10的破

shell指令碼使用之awk按列求平均值（含最大，最小值）

使用Linux命令的awk工具 delay_avg.sh指令碼內容如下所示： #!/bin/sh RESPONSEFILE=$1 if [ $# -ne 1 ] then echo "usage: ./delay_avg.sh na

python視覺化演算法執行進度（含輸出格式控制函式format用法）

使用PyPrind包實現演算法的進度條功能在演算法執行過程中，使用PyPrind建立一個進度條物件，視覺化演算法的執行進度官方地址：https://github.com/rasbt/pyprind 可以支援多種不同樣式的進度條顯示。 import pyprind import

Ubuntu 16.04 安裝opencv的各種方法（含opencv contrib擴充套件包安裝方法）

C++介面安裝採用原始碼編譯的安裝方式，基本也就是這種方法了，首先在官網下載你想安裝的版本的opencv壓縮包，下載連線如下： https://github.com/opencv/opencv/releases 首先，安裝一些依賴，根據自己的情況選擇，如果不知道自己安裝

阿里App支付服務端介面開發（含後臺非同步回撥，退款）

1.引入相關包檔案 maven匯入方式： <dependency> <groupId>com.alipay</groupId> <artifactId>sdk-java</artifactId> <version>

【甘道夫】Eclipse+Maven搭建HBase開發環境及HBaseDAO代碼演示樣例

into disable ner except depend strong condition lena esc 環境： Win764bit Eclipse Version:

資料產品經理技能圖譜（含與資料分析師關鍵技能對比）

以下內容摘錄自呂津的Kindle電子書《資料產品經理必修課：從零經驗到令人驚豔》圖1、產品經理與資料分析師關鍵技能從上圖可以看出，資料產品經理的技能要求很清晰，大致可以分為三個部分，分別是產品經理硬技能，資料分析師硬技能，以及作為產品經理與資料分析師都要具備的軟技能。對

MR操作hbase的一點心得（含hbase表拷貝樣例程式碼）

相關推薦