Sqoop資料遷移實戰

阿新 • • 發佈：2018-12-29

sqoop安裝

安裝sqoop的前提是已經具備java和hadoop的環境

1、下載並解壓

最新版下載地址http://ftp.wayne.edu/apache/sqoop/1.4.6/

2、修改配置檔案

$ cd $SQOOP_HOME/conf

$ mv sqoop-env-template.sh sqoop-env.sh

開啟sqoop-env.sh並編輯下面幾行：

export HADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/

export HADOOP_MAPRED_HOME=/home/hadoop/apps/hadoop-2.6.1/

export HIVE_HOME=/home/hadoop/apps/hive-1.2.1

3、加入mysql的jdbc驅動包

cp ~/app/hive/lib/mysql-connector-java-5.1.28.jar $SQOOP_HOME/lib/

4、驗證啟動

$ cd $SQOOP_HOME/bin

$ sqoop-version

預期的輸出：

15/12/17 14:52:32 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6

Sqoop 1.4.6 git commit id 5b34accaca7de251fc91161733f906af2eddbe83

Compiled by abe on Fri Aug 1 11:19:26 PDT 2015

到這裡，整個Sqoop安裝工作完成。

Sqoop的資料匯入

“匯入工具”匯入單個表從RDBMS到HDFS。表中的每一行被視為HDFS的記錄。所有記錄都儲存為文字檔案的文字資料（或者Avro、sequence檔案等二進位制資料）

語法

下面的語法用於將資料匯入HDFS。

$ sqoop import (generic-args) (import-args)

示例

表資料

在mysql中有一個庫userdb中三個表：emp, emp_add和emp_contact

表emp:

id	name	deg	salary	dept
1201	gopal	manager	50,000	TP
1202	manisha	Proof reader	50,000	TP
1203	khalil	php dev	30,000	AC
1204	prasanth	php dev	30,000	AC
1205	kranthi	admin	20,000	TP

表emp_add:

id	hno	street	city
1201	288A	vgiri	jublee
1202	108I	aoc	sec-bad
1203	144Z	pgutta	hyd
1204	78B	old city	sec-bad
1205	720X	hitec	sec-bad

表emp_conn:

id	phno	email
1201	2356742	[email protected]
1202	1661663	[email protected]
1203	8887776	[email protected]
1204	9988774	[email protected]
1205	1231231	[email protected]

匯入表表資料到HDFS

下面的命令用於從MySQL資料庫伺服器中的emp表匯入HDFS。

$bin/sqoop import \

--connect jdbc:mysql://hdp-node-01:3306/test \

--username root \

--password root \

--table emp \

--m 1

如果成功執行，那麼會得到下面的輸出。

14/12/22 15:24:54 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5

14/12/22 15:24:56 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.

INFO orm.CompilationManager: Writing jar file: /tmp/sqoop-hadoop/compile/cebe706d23ebb1fd99c1f063ad51ebd7/emp.jar

-----------------------------------------------------

O mapreduce.Job: map 0% reduce 0%

14/12/22 15:28:08 INFO mapreduce.Job: map 100% reduce 0%

14/12/22 15:28:16 INFO mapreduce.Job: Job job_1419242001831_0001 completed successfully

-----------------------------------------------------

14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Transferred 145 bytes in 177.5849 seconds (0.8165 bytes/sec)

14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Retrieved 5 records.

為了驗證在HDFS匯入的資料，請使用以下命令檢視匯入的資料

$ $HADOOP_HOME/bin/hadoop fs -cat /user/hadoop/emp/part-m-00000

emp表的資料和欄位之間用逗號(,)表示。

1201, gopal, manager, 50000, TP

1202, manisha, preader, 50000, TP

1203, kalil, php dev, 30000, AC

1204, prasanth, php dev, 30000, AC

1205, kranthi, admin, 20000, TP

匯入關係表到HIVE

bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --table emp --hive-import --m 1

匯入到HDFS指定目錄

在匯入表資料到HDFS使用Sqoop匯入工具，我們可以指定目標目錄。

以下是指定目標目錄選項的Sqoop匯入命令的語法。

--target-dir <new or exist directory in HDFS>

下面的命令是用來匯入emp_add表資料到'/queryresult'目錄。

bin/sqoop import \

--connect jdbc:mysql://hdp-node-01:3306/test \

--username root \

--password root \

--target-dir /queryresult \

--table emp --m 1

下面的命令是用來驗證 /queryresult 目錄中 emp_add表匯入的資料形式。

$HADOOP_HOME/bin/hadoop fs -cat /queryresult/part-m-*

它會用逗號（，）分隔emp_add表的資料和欄位。

1201, 288A, vgiri, jublee

1202, 108I, aoc, sec-bad

1203, 144Z, pgutta, hyd

1204, 78B, oldcity, sec-bad

1205, 720C, hitech, sec-bad

匯入表資料子集

我們可以匯入表的使用Sqoop匯入工具，"where"子句的一個子集。它執行在各自的資料庫伺服器相應的SQL查詢，並將結果儲存在HDFS的目標目錄。

where子句的語法如下。

--where <condition>

下面的命令用來匯入emp_add表資料的子集。子集查詢檢索員工ID和地址，居住城市為：Secunderabad

bin/sqoop import \

--connect jdbc:mysql://hdp-node-01:3306/test \

--username root \

--password root \

--where "city ='sec-bad'" \

--target-dir /wherequery \

--table emp_add --m 1

按需匯入

bin/sqoop import \

--connect jdbc:mysql://hdp-node-01:3306/test \

--username root \

--password root \

--target-dir /wherequery2 \

--query 'select id,name,deg from emp WHERE id>1207 and $CONDITIONS' \

--split-by id \

--fields-terminated-by '\t' \

--m 1

下面的命令用來驗證資料從emp_add表匯入/wherequery目錄

$HADOOP_HOME/bin/hadoop fs -cat /wherequery/part-m-*

它用逗號（，）分隔 emp_add表資料和欄位。

1202, 108I, aoc, sec-bad

1204, 78B, oldcity, sec-bad

1205, 720C, hitech, sec-bad

增量匯入

增量匯入是僅匯入新新增的表中的行的技術。

它需要新增‘incremental’, ‘check-column’, 和 ‘last-value’選項來執行增量匯入。

下面的語法用於Sqoop匯入命令增量選項。

--incremental <mode>

--check-column <column name>

--last value <last check column value>

假設新新增的資料轉換成emp表如下：

1206, satish p, grp des, 20000, GR

下面的命令用於在EMP表執行增量匯入。

bin/sqoop import \

--connect jdbc:mysql://hdp-node-01:3306/test \

--username root \

--password root \

--table emp --m 1 \

--incremental append \

--check-column id \

--last-value 1208

以下命令用於從emp表匯入HDFS emp/ 目錄的資料驗證。

$ $HADOOP_HOME/bin/hadoop fs -cat /user/hadoop/emp/part-m-*

它用逗號（，）分隔 emp_add表資料和欄位。

1201, gopal, manager, 50000, TP

1202, manisha, preader, 50000, TP

1203, kalil, php dev, 30000, AC

1204, prasanth, php dev, 30000, AC

1205, kranthi, admin, 20000, TP

1206, satish p, grp des, 20000, GR

下面的命令是從表emp 用來檢視修改或新新增的行

$ $HADOOP_HOME/bin/hadoop fs -cat /emp/part-m-*1

這表示新新增的行用逗號（，）分隔emp表的欄位。

1206, satish p, grp des, 20000, GR

Sqoop資料遷移實戰

sqoop安裝安裝sqoop的前提是已經具備java和hadoop的環境 1、下載並解壓最新版下載地址http://ftp.wayne.edu/apache/sqoop/1.4.6/ 2、修改配置檔案 $ cd $SQOOP_HOME/conf $

MongoDB副本集配置和資料遷移實戰

MongoDB副本集配置和資料遷移實戰 https://gitee.com/et/ops/blob/master/MongoDB副本集配置和資料遷移實戰.md 環境：Ubuntu 16.04, MongoDB 3.6 基本概念 MongoDB 的副本集就是

Sqoop資料遷移工具之簡單介紹和安裝（一）

1、概述 sqoop 是 apache 旗下一款“Hadoop 和關係資料庫伺服器之間傳送資料”的工具。匯入資料：MySQL，Oracle 匯入資料到 Hadoop 的 HDFS、HIVE、HBASE 等資料儲存系統匯出資料：從 Hadoop 的檔案系統中匯出資料到

sqoop資料遷移（01）——sqoop概述

概述 sqoop是什麼？ sqoop是apache旗下一款“Hadoop和關係資料庫伺服器之間傳送資料”的工具。匯入資料：MySQL，Oracle匯入資料到Hadoop的HDFS、HIVE、HBASE等資料儲存系統；匯出資料：從Hadoop的檔案系統中匯出資

sqoop資料遷移（02）——sqoop安裝

安裝sqoop的前提是具備java和hadoop的環境。下載並解壓我使用的sqoop1的版本，下載之後上傳到指定的安裝包目錄，然後進行解壓 tar -zxvf sqoop-1.4.6-cdh5.14.0.tar.gz -C /export/servers

Sqoop 資料遷移工具

目錄 1.概述 2.工作機制 3.Sqoop安裝 4.Sqoop基本命令介紹 5.Sqoop資料匯入 5.1.匯入MySQL資料到HDFS 5.1.1.普通匯入 5.1.2.指定分隔符和匯入路徑 5.1.3.匯入where條件資料 5.1.4.匯入Quer

億級資料遷移實戰方案,真實案例

背景: 公司某業務模組的使用者通訊記錄和通話記錄的表，單表記錄過億了,mysql很堅挺好不好！！！！其中某表是205773235 約2.0億另外某表是575213155 約5.7億使用者數量約100W 其中通訊錄有的使用者是有很多重複記

Sqoop 資料遷移案例

Sqoop 資料遷移工具定義主要用於在 Hadoop(Hive)和傳統資料庫(mysql 等)之間進行資料的傳遞層實現由 MR 完成(嚴格來說，只執行 map，沒有 reduce) 部署只需要部署在一臺伺服器上，作為程式提交給 YARN 配置已在 Hadoop 叢

資料遷移工具 sqoop 安裝部署及實戰

目錄概述工作機制安裝部署實戰 1.概述 sqoop是apache旗下一款“Hadoop和關係資料庫伺服器之間傳送資料”的工具。匯入資料：MySQL，Oracle匯入資料到Hadoop的HDFS、HIVE、HBASE等資料儲存系統；匯

apache Ignite 實戰+資料遷移部署

1，因mysql壓力需求，採用apache Ignite做快取前置，考慮不影響現有業務邏輯下，apache Ignite昨為查詢主庫，mysql不變，所以以mysql為持久層，php寫個載入啟動，mysql表比較多，手寫配置檔案不符合場景，決定用php寫啟動應用程式碼 2,配置檔案（說明：採

阿里雲clouder認證—雲資料庫管理與資料遷移（實戰篇）

阿里雲clouder認證—雲資料庫管理與資料遷移由於關於雲資料庫管理與資料遷移理論知識太多，我已上傳了資源，有需要的可以下載看下簡單的在這裡說下一些專有名詞： R

從壹開始 [ Ids4實戰 ] 之三║ 詳解授權持久化 & 使用者資料遷移

回顧哈嘍大家週三好，今天終於又重新開啟 IdentityServer4 的落地教程了，不多說，既然開始了，就要努力做好

跨庫資料遷移利器 —— Sqoop

一、Sqoop 基本命令 1. 檢視所有命令 # sqoop help 2. 檢視某條命令的具體使用方法 # sqoop help 命令名二、Sqoop 與 MySQL 1. 查詢MySQL所有資料庫通常用於 Sqoop 與 MySQL 連通測試： sqoop list-databases \

HBase資料遷移到Kafka實戰

1.概述在實際的應用場景中，資料儲存在HBase叢集中，但是由於一些特殊的原因，需要將資料從HBase遷移到Kafka。正常情況下，一般都是源資料到Kafka，再有消費者處理資料，將資料寫入HBase。但是，如果逆向處理，如何將HBase的資料遷移到Kafka呢？今天筆者就給大家來分享一下具體的實現流程。

資料遷移常用方法

SQL SERVER幾種資料遷移/匯出匯入的實踐 SQLServer提供了多種資料匯出匯入的工具和方法，在此，分享我實踐的經驗（只涉及資料庫與Excel、資料庫與文字檔案、資料庫與資料庫之間的匯出匯入）。（一）資料庫與Excel 方法1：使用資料庫客戶端（SSMS）的介面工具。右

資料遷移之excel修改時間字串為自定義格式或時間戳

原資料：Wed Aug 01 04:41:37 CST 2018 excel公式：=DATE(MID(F2,25,4),MONTH(MID(F2,5,3)&1),MID(F2,9,2))+TIME(MID(F2,12,2),MID(F2,15,2),MID(F2,18,2)) //M

資料庫分庫分表(sharding)系列(五) 一種支援自由規劃無須資料遷移和修改路由程式碼的Sharding擴容方案（轉）...

作為一種資料儲存層面上的水平伸縮解決方案，資料庫Sharding技術由來已久，很多海量資料系統在其發展演進的歷程中都曾經歷過分庫分表的Sharding改造階段。簡單地說，Sharding就是將原來單一資料庫按照一定的規則進行切分，把資料分散到多臺物理機（我們稱之為Shard)上儲存，從

flask-migrate 資料遷移

作用：做資料庫遷移依賴：flask-script flask-sqlalchemy 使用專案結構 manage.py（其它檔案內容與flask-sqlalchemy中一樣） from s8day130_pro import create_app,db from

MySQL 資料庫增量備份與恢復資料命令實戰

1. 備份單個數據庫練習 mysqldump 命令多種引數的使用 1.1 調整 MySQL 客戶端及服務端字符集為建庫建表時預設的 latin1，避免備份時的亂碼問題 [[email protected] ~]# vi /etc/my.cnf [[email protected] ~

大資料量單表在不同表名列名間的資料遷移

（windows Server 2008 R2+oracle 11g）單表資料1.5億條記錄，90個欄位，檔案大小70G 處理思路：源端單表exp，目標端單表imp，再通過欄位對應關係轉入到目標表（不同表名、列名） exp username1/password1 buffer=6400

Sqoop資料遷移實戰

sqoop安裝

Sqoop的資料匯入

語法

示例

相關推薦