5.HBase_應用_MapReduce

阿新 • • 發佈：2018-11-06

使用MapReduce操作HBase表資料，比如實現HBase資料遷移，從一個表抽取資料匯入另一個表。

1.首先，我們新建maven專案，並匯入hbase相應的依賴包

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
	<modelVersion>4.0.0</modelVersion>
	<groupId>cn.lv</groupId>
	<artifactId>hbase-study</artifactId>
	<version>0.0.1-SNAPSHOT</version>

	<properties>
	  <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
	</properties>

	<dependencies>
	  <dependency>
		<groupId>org.apache.hbase</groupId>
		<artifactId>hbase-client</artifactId>
		<version>1.1.2</version>
		<scope>provided</scope>
	  </dependency>
	  <dependency>
		<groupId>org.apache.hadoop</groupId>
		<artifactId>hadoop-client</artifactId>
		<version>2.7.4</version>
		<scope>provided</scope>
	  </dependency>
	  <dependency>
		<groupId>org.apache.hbase</groupId>
		<artifactId>hbase-server</artifactId>
		<version>1.1.2</version>
		<scope>provided</scope>
	  </dependency>
	  <dependency>
		<groupId>jdk.tools</groupId>
		<artifactId>jdk.tools</artifactId>
		<version>1.7</version>
		<scope>system</scope>
		<systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>
	  </dependency>
	</dependencies>
	<build>
	  <finalName>hbase-study</finalName>
      <plugins>
		<plugin>
			<artifactId>maven-assembly-plugin</artifactId>
			<configuration>
			    <archive><manifest>
			      <mainClass>cn.lv.mr.Emp2BasicMapReduce</mainClass>
			    </manifest>
			  </archive>
			  <descriptorRefs>
				<descriptorRef>jar-with-dependencies</descriptorRef>
			  </descriptorRefs>
			</configuration>
			<executions>
			  <execution>
				<id>make-assembly</id>
				<phase>package</phase>
				<goals>
				  <goal>assembly</goal>
				</goals>
			  </execution>
			</executions>
		</plugin>
		<plugin>
		  <artifactId>maven-compiler-plugin</artifactId>
			<version>2.3.2</version>
			<configuration>
			  <source>1.7</source>
			  <target>1.7</target>
			  <encoding>UTF-8</encoding>
			</configuration>
		</plugin>
	  </plugins>
	</build>
</project>

2.編寫程式碼，從hbase中emp表抽取資料匯入basic表中

package cn.lv.mr;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;

/**
 * HBase表導資料：from emp table to basic table
 * 
 * @author lw
 *
 */
public class Emp2BasicMapReduce {

	// Mapper
	// emp,info,{name='zhangsan'}
	// emp,info,{age='22'}
	public static class ReadEmp2BasicMapper extends TableMapper<Text, Put> {
		public Text outputKey = new Text();

		@Override
		protected void map(ImmutableBytesWritable key, Result value, Context context)
				throws IOException, InterruptedException {
			// row key
			String rowKey = Bytes.toString(key.get());
			outputKey.set(rowKey);

			// outputValue
			Put put = new Put(key.get());
			// Iterator
			for (Cell cell : value.rawCells()) {
				// add family : info
				if ("info".equals(Bytes.toString(CellUtil.cloneFamily(cell)))) {
					// add column : name
					if ("name".equals(Bytes.toString(CellUtil.cloneQualifier(cell)))) {
						put.add(cell);
					}
					// add column : age
					if ("age".equals(Bytes.toString(CellUtil.cloneQualifier(cell)))) {
						put.add(cell);
					}
				}
			}
			context.write(outputKey, put);
		}
	}

	// Reducer
	public static class WriteBasicReducer extends TableReducer<Text, Put, ImmutableBytesWritable> {
		@Override
		protected void reduce(Text key, Iterable<Put> value, Context context) throws IOException, InterruptedException {
			for (Put put : value) {
				context.write(null, put);
			}
		}
	}

	public static void main(String[] args) throws Exception {
		// configuration
		Configuration conf = HBaseConfiguration.create();
		// create job
		Job job = Job.getInstance(conf, Emp2BasicMapReduce.class.getSimpleName());
		// set run job jar class
		job.setJarByClass(Emp2BasicMapReduce.class);
		// create hbase scan
		Scan scan = new Scan();
		scan.setCacheBlocks(false);
		scan.setCaching(500); // 預設1
		// set other scan attrs
		TableMapReduceUtil.initTableMapperJob("emp", // input table
				scan, // scan instance to control cf and attribute selection
				ReadEmp2BasicMapper.class, // mapper class
				Text.class, // mapper output key
				Put.class, // mapper output value
				job);
		TableMapReduceUtil.initTableReducerJob("basic", // output table
				WriteBasicReducer.class, // reducer class
				job);
		job.setNumReduceTasks(1); // reduce task num
		System.exit(job.waitForCompletion(true) ? 0 : 1);
	}

}

3.執行jar包

注意：在執行的過程中，一定要注意把HBase的包指定到HADOOP_CLASSPATH環境變數中。即，在hadoop_env.sh中新增如下：

export HBASE_HOME=/usr/hdp/2.5.3.0-37/hbase
export HADOOP_HOME=/usr/hdp/2.5.3.0-37/hadoop
export HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath`

否則，就會報錯：

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration

加入上面的環境變數，我們執行jar包，如下：

# 執行命令
yarn jar hbase-study-jar-with-dependencies.jar

執行結果驗證(我們只遷移了name和age)：

hbase(main):005:0> scan 'emp'
ROW                                COLUMN+CELL      
 10001                             column=info:address, timestamp=1540373935927, value=hebei sjz yuhua
 10001                             column=info:age, timestamp=1540373917799, value=22 
 10001                             column=info:name, timestamp=1540373904273, value=zhangsan 
 10002                             column=info:address, timestamp=1540373978440, value=henan zhengzhou erqi 
 10002                             column=info:age, timestamp=1540373956551, value=24   
 10002                             column=info:name, timestamp=1540373947414, value=lisi
2 row(s) in 0.0270 seconds

hbase(main):006:0> scan 'basic'
ROW                                COLUMN+CELL   
 10001                             column=info:age, timestamp=1540373917799, value=22
 10001                             column=info:name, timestamp=1540373904273, value=zhangsan   
 10002                             column=info:age, timestamp=1540373956551, value=24  
 10002                             column=info:name, timestamp=1540373947414, value=lisi     
 2 row(s) in 0.0290 seconds

5.HBase_應用_MapReduce

使用MapReduce操作HBase表資料，比如實現HBase資料遷移，從一個表抽取資料匯入另一個表。 1.首先，我們新建maven專案，並匯入hbase相應的依賴包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:

WebKit.NET-0.5簡單應用

修改解壓 ext 示例封裝 cairo result 簡單應用不用最近想用c#做個簡單的瀏覽器工具，但是網站一些內容不支持c#內置的WebBowser控件，於是只能改用其他內核瀏覽器進行開發，搜索到WebKit.NET這個封裝好的瀏覽器引擎，需求的功

WebKit.NET-0.5簡單應用(2)——音量解決方案

word entry imp ssi rsh turn ati window bject 查找WebKit.NET相關文檔，沒有找到音量控制解決方法。換思路進行解決，嘗試用Win32 API進行解決 [DllImport("winmm.dll")] public stat

Java內部類(5)：應用例

ont 應用情況 test 調用 sub() spa ren tro 例1-閉包(Closure) 閉包是一個可調用的對象(通過Callback)，它記錄了一些信息，這些信息來自於創建它的作用域 1 interface Incrementable { 2 v

IIS 之在IIS7、IIS7.5中應用程序池最優配置方案

定期 target 註冊 enable 間隔 images pre .net 微軟　　找到Web站點對應的應用程序池，“應用程序池” → 找到對應的“應用程序池” → 右鍵“高級設置...” 　　一、一般優化方案　　1、基本設置　　[1] 隊列長度：默認值100

華為雲計算培訓：雲計算的5大應用場景

部分 strong 需要工作環境產品基於 RoCE pre 之間 ** 1. 電子郵箱** 　　　　作為最為流行的通信服務，電子郵箱的不斷演變，為人們提供了更快和更可靠的交流方式。傳統的電子郵箱使用物理內存來存儲通信數據，而雲計算使得電子郵箱可以使用雲端的資源來檢

lora在智慧城市中的5個應用案例

娛樂場之一人員除了服務 for 潮流 clas 利用要成為“ 智慧城市 ”，一個地方必須適宜性、可持續發展方面保持進取心，並擁有及時，可靠的數字解決方案，以支持所有重要的公共活動和公用事業。一般而言，LPWAN工具，尤其是LoRa技術，在這種“ 互聯生態系統 ”中

8.HBase_應用_整合Hive

1.HBase與Hive整合配置 HBase與Hive整合：Hive資料儲存在HBase、Hive表的描述資訊儲存在Hive。因為，Hive是高延遲的，而HBase是低延遲的。我們整合的目的就是利用HBase的優勢。整合Hive建立表的方式：(1) 管理表 -&nb

7.HBase_應用_表設計

HBase的namespace中存放tables。預設情況下： default：未指定名稱空間建立的表，都在此名稱空間下存放。 hbase：系統的命令空間，主要存放：meta表、名稱空間。 1.多個列族和設定屬性 # 建立名稱空間 creat

6.HBase_應用_常用資料遷移方式

一般情況下，我們的資料來源是：RDBMS或日誌檔案。資料遷移常用方式：使用HBase Put方式、HBase自帶MR方式、bulk load工具方式。 Java API操作HBase Put、自定義HBase MR兩種方式，我們在前面已經使用過了，重點看一下importtsv、bu

訊息佇列常見的 5 個應用場景

一、簡介訊息佇列中介軟體是分散式系統中重要的元件，主要解決應用耦合，非同步訊息，流量削鋒等問題。實現高效能、高可用、可伸縮和最終一致性架構。使用較多的訊息佇列有ActiveMQ、RabbitMQ、ZeroMQ、Kafka、MetaMQ、RocketMQ。二、訊息佇列應

關於Oracle 10.2.0.5 版本應用SCN補丁14121009相關問題

環境：OEL 5.7 + Oracle 10.2.0.5 背景：Oracle釋出的兩篇關於2019年6月份將自動調整高版本資料庫的SCN COMPATIBILITY的MOS文章引起了很多客戶的恐慌，尤其是起初Oracle對10g版本未提供任何補丁。我這裡結合業界多位Oracle ACE專家的系列文章，在自己的

5-ansible應用標籤tags管理任務

1.工作站：建立測試環境，檢視配置檔案，檢視主機解析檔案。2.工作站：建立包含配置資訊的任務檔案configure_mail.yml。通過yum安裝postfix，通過notify呼叫start_postfix，並將此步驟tags標記為server以備呼叫。通過yum安裝do

Markdown編輯器之Editor.md v1.5.0應用

在開始寫CSDN部落格前一直使用的是類似xhEditor、百度的ueditor編輯器，新版本的有道雲筆記也實現了markdown編輯器，的確用過markdown後感覺很喜歡，再用之前的編輯器很彆扭，然後專案中用到編輯器的時候我就想使用markdown來實現，而非

websphere8.5部署應用：不支援 userid 為空。 ERRORCODE=-4461, SQLSTATE=42815 DSRA0010E: SQL 狀態：42815，錯誤碼：-4,461

配置的db2的資料來源通過控制檯的測試連線能夠連線成功，但是部署應用的時候就報錯了： [16-1-6 5:45:18:894 CST] FFDC Exception:javax.resource.spi.ResourceAllocationExcep

centos6.5 安裝應用

1、新建使用者和組增加使用者：useradd yven 密碼修改：passwd yven 修改sudo許可權：vim /etc/sudoers 增加：yven ALL=(ALL) ALL 2、安裝jdk解壓：tar -zxvf jdk8 移動

Elasticsearch資料庫 | Elasticsearch-7.5.0應用基礎實戰

> Elasticsearch 是一個可用於分散式以及符合RESTful 風格的搜尋和資料分析引擎。—— [Elastic Stack 官網](https://www.elastic.co/cn/elasticsearch/) ### 關於Elasticsearch的愛恨情仇 - 或許提起搜尋伺服器,大

Elasticsearch資料庫 | Elasticsearch-7.5.0應用搭建實戰

> Elasticsearch 是一個可用於分散式以及符合RESTful 風格的搜尋和資料分析引擎。—— [Elastic Stack 官網](https://www.elastic.co/cn/elasticsearch/) ![0FNnW8.png](https://img2020.cnblogs.co

網絡構建入門技術（5）——子網劃分應用

掩碼 -1 參考資料臺電 www 說明網絡 com hive 說明（2017-5-16 11:27:00）：題目：一個公司有530臺電腦，組成一個對等局域網，子網掩碼和ＩＰ設多少最合適？ 1. 首先選IP地址類別，A類太多，C類不夠用，就選B類了，假設為188.18

RabbitMQ 一二事5 - 通配符模式應用

eal tsl shu long ssa etl ive sla lang One-day-%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0-%E5%95%86%E5%93%81%E6%88%90%E4%BA%A4%E6%97%B6%E5%8F%91

5.HBase_應用_MapReduce

1.首先，我們新建maven專案，並匯入hbase相應的依賴包

2.編寫程式碼，從hbase中emp表抽取資料匯入basic表中

3.執行jar包

相關推薦