sqoop數據遷移

阿新 • • 發佈：2017-10-02

tro sta 地址導出 sequence and git create column

概述

sqoop是apache旗下一款“Hadoop和關系數據庫服務器之間傳送數據”的工具。

導入數據：MySQL，Oracle導入數據到Hadoop的HDFS、HIVE、HBASE等數據存儲系統；

導出數據：從Hadoop的文件系統中導出數據到關系數據庫

技術分享

工作機制

將導入或導出命令翻譯成mapreduce程序來實現

在翻譯出的mapreduce中主要是對inputformat和outputformat進行定制

sqoop實戰及原理

sqoop安裝

安裝sqoop的前提是已經具備java和hadoop的環境

1.下載並解壓

最新版下載地址http://ftp.wayne.edu/apache/sqoop/1.4.6/

2.修改配置文件

$ cd $SQOOP_HOME/conf

$ mv sqoop-env-template.sh sqoop-env.sh

打開sqoop-env.sh並編輯下面幾行：

export HADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/

export HADOOP_MAPRED_HOME=/home/hadoop/apps/hadoop-2.6.1/

export HIVE_HOME=/home/hadoop/apps/hive-1.2.1

3、加入mysql的

jdbc驅動包

cp ~/app/hive/lib/mysql-connector-java-5.1.28.jar $SQOOP_HOME/lib/

4、驗證啟動

$ cd $SQOOP_HOME/bin

$ sqoop-version

預期的輸出：

15/12/17 14:52:32 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6

Sqoop 1.4.6 git commit id 5b34accaca7de251fc91161733f906af2eddbe83

Compiled by abe on Fri Aug 1 11:19:26 PDT 2015

到這裏，整個Sqoop安裝工作完成。

Sqoop的數據導入

“導入工具”導入單個表從RDBMS到HDFS。表中的每一行被視為HDFS的記錄。所有記錄都存儲為文本文件的文本數據（或者Avro、sequence文件等二進制數據）

語法

下面的語法用於將數據導入HDFS。

$ sqoop import (generic-args) (import-args)

導入表表數據到HDFS

下面的命令用於從MySQL數據庫服務器中的emp表導入HDFS。
$bin/sqoop import   --connect jdbc:mysql://hdp-node-01:3306/test   --username root  --password root   --table emp   --m 1

m是啟動reduce個數的的意思。

為了驗證在HDFS導入的數據，請使用以下命令查看導入的數據
$ $HADOOP_HOME/bin/hadoop fs -cat /user/hadoop/emp/part-m-00000

如果報錯：

技術分享

從錯誤信息中需要訪問端口 10020 可以大概看出，DataNode 需要訪問 MapReduce JobHistory Server，如果沒有修改則用默認值：0.0.0.0:10020 。需要修改配置文件 mapred-site.xml ：

[html] view plain copy
<property>  
   <name>mapreduce.jobhistory.address</name>  
   <!-- 配置實際的主機名和端口-->  
   <value>master:10020</value>  
</property>

並且啟動MapReduce JobHistory Server服務:

在namenode上執行命令:

1.sbin/mr-jobhistory-daemon.sh start historyserver

導入關系表到HIVE

bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --table emp --hive-import --m 1

導入到HDFS指定目錄

在導入表數據到HDFS使用Sqoop導入工具，我們可以指定目標目錄。

以下是指定目標目錄選項的Sqoop導入命令的語法。

--target-dir <new or exist directory in HDFS>

下面的命令是用來導入emp_add表數據到‘/queryresult‘目錄。

bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --target-dir /queryresult --table emp --m 1

下面的命令是用來驗證 /queryresult 目錄中 emp_add表導入的數據形式。

$HADOOP_HOME/bin/hadoop fs -cat /queryresult/part-m-*

它會用逗號（，）分隔emp_add表的數據和字段。

1201, 288A, vgiri, jublee

1202, 108I, aoc, sec-bad

1203, 144Z, pgutta, hyd

1204, 78B, oldcity, sec-bad

1205, 720C, hitech, sec-bad

導入表數據子集

我們可以導入表的使用Sqoop導入工具，"where"子句的一個子集。它執行在各自的數據庫服務器相應的SQL查詢，並將結果存儲在HDFS的目標目錄。

where子句的語法如下。

--where <condition>

下面的命令用來導入emp_add表數據的子集。子集查詢檢索員工ID和地址，居住城市為：Secunderabad

bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --where "city =‘sec-bad‘" --target-dir /wherequery --table emp_add --m 1

按需導入
bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --target-dir /wherequery2 --query ‘select id,name,deg from emp WHERE  id>1207 and $CONDITIONS‘ --split-by id --fields-terminated-by ‘\t‘ --m 1

下面的命令用來驗證數據從emp_add表導入/wherequery目錄

$HADOOP_HOME/bin/hadoop fs -cat /wherequery/part-m-*

增量導入

增量導入是僅導入新添加的表中的行的技術。

它需要添加‘incremental’, ‘check-column’, 和 ‘last-value’選項來執行增量導入。

下面的語法用於Sqoop導入命令增量選項。+

--incremental <mode>
--check-column <column name>
--last value <last check column value>

假設新添加的數據轉換成emp表如下：

1206, satish p, grp des, 20000, GR

下面的命令用於在EMP表執行增量導入。

bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --table emp --m 1 --incremental append --check-column id --last-value 1208

Sqoop的數據導出

將數據從HDFS導出到RDBMS數據庫

導出前，目標表必須存在於目標數據庫中。

默認操作是從將文件中的數據使用INSERT語句插入到表中
更新模式下，是生成UPDATE語句更新表數據

語法

以下是export命令語法。

$ sqoop export (generic-args) (export-args)

數據是在HDFS 中“EMP/”目錄的emp_data文件中。所述emp_data如下：

1201, gopal, manager, 50000, TP

1202, manisha, preader, 50000, TP

1203, kalil, php dev, 30000, AC

1204, prasanth, php dev, 30000, AC

1205, kranthi, admin, 20000, TP

1206, satish p, grp des, 20000, GR

1、首先需要手動創建mysql中的目標表

$ mysql

mysql> USE db;

mysql> CREATE TABLE employee (

id INT NOT NULL PRIMARY KEY,

name VARCHAR(20),

deg VARCHAR(20),

salary INT,

dept VARCHAR(10));

然後執行導出命令

bin/sqoop export \

--connect jdbc:mysql://hdp-node-01:3306/test \

--username root \

--password root \

--table employee \

--export-dir /user/hadoop/emp/

驗證表mysql命令行。

mysql>select * from employee;

如果給定的數據存儲成功，那麽可以找到數據在如下的employee表。

+------+--------------+-------------+-------------------+--------+

+------+--------------+-------------+-------------------+--------+

| 1201 | gopal | manager | 50000 | TP |

| 1202 | manisha | preader | 50000 | TP |

| 1203 | kalil | php dev | 30000 | AC |

| 1204 | prasanth | php dev | 30000 | AC |

| 1205 | kranthi | admin | 20000 | TP |

| 1206 | satish p | grp des | 20000 | GR |

+------+--------------+-------------+-------------------+--------+

sqoop數據遷移

tro sta 地址導出 sequence and git create column 概述 sqoop是apache旗下一款“Hadoop和關系數據庫服務器之間傳送數據”的工具。導入數據：MySQL，Oracle導入數據到Hadoop的HD

sqoop 數據遷移

imp oop 1.4 eight 解壓 ron 生成 exec 需要 sqoop 數據遷移 1 概述　　sqoop是apache旗下一款“Hadoop和關系數據庫服務器之間傳送數據”的工具。　　導入數據：MySQL，Oracle導入數據到Hadoop的HDFS、HIV

sqoop 之數據遷移

1.2 ide span data conf error nds 修改配置文件解壓安裝sqoop的前提是已經具備java和hadoop的環境 1、下載並解壓最新版下載地址http://ftp.wayne.edu/apache/sqoop/1.4.6/ 2、修改配

redis數據遷移

rubygems 主從同步 ash 清空備份工具 mov class pipe 一：AOF方式需求：一個沒有數據的redis。清空redis數據方法 bash> echo "keys *" | redis-cli --raw -p 6378 |sed -r

MySql數據遷移

reat div 創建 8.0 har code roo eight 文件在源主機上，先使用mysqldump命令備份，導出sql腳本文件 mysqldump -uroot -p tel > /opt/tel_dev.sql 也可指定編碼 mysqldump

centos下mysql數據遷移方法

重新安裝步驟數據庫恢復 basedir 第三方 datadir order mysql 正常第一種：原始數據庫不需要重新安裝：默認mysql會安裝在/var/lib/mysql這裏，若將數據遷移到/data/mysql目錄下，步驟如下： 1、停止mysql服務 2

數據遷移過程中hive sql調優

操作 reduce mapred set mon 事情 clas 過程高效本文記錄的是，在數據處理過程中，遇到了一個sql執行很慢，對一些大型的hive表還會出現OOM，一步一步通過參數的設置和sql優化，將其調優的過程。先上sql select t1.create

isv大規模數據遷移和加密

構圖業務 log 數據架構遷移用戶重復進行例如由於公司的核心業務合作夥伴淘寶網，最近出現泄漏用戶信息的現象，找了好久找不到根源，於是乎，淘寶那邊決定對所有敏感數據進行加密，從出口和入口都走密文，於是乎，我們的工作量就來了。　　我們的一個底單數據庫，存儲了大量

EF數據遷移命令

控制應該 id字段更新準備使用驗證 pac line 在包管理器控制臺中輸入命令“enable-migrations”，然後按Enter鍵！Visual Studio將生成一個名為“Configurations.cs&rdquo

HDFS數據遷移目錄到正確姿勢

pre -h -s dir 目錄關閉所有 white cdh 添加了一塊硬盤，原來的DataNode已經把原有的硬盤占滿；怎麽辦，想要把舊有的數據遷移到新的硬盤上面； 1. 在CDH中修改目錄（在HDFS組件中搜索.dir)，本例中，新加的硬盤掛載在/data上面，Na

EF數據遷移，未將對象引用設置到對象實例

數據庫 provider strings ram 配置錯誤信息 nbsp 實例 enc 現象：執行Enable-Migrations -force時就報“未將對象引用設置到對象實例”的異常： DbProviderServicesExtensions.GetProvide

linux服務器數據遷移—全網備份

全網備份項目需求說明：1) 所有服務器的備份目錄必須都為/backup。2) 要備份的系統配置文件包括但不限於： a.定時任務服務的配置文件(/var/spool/cron/root)（適合 web 和 nfs 服務器）。 b.開機自啟動的配置文件(/etc/rc.local)（適合 web 和 nf

Azure Blob數據遷移工具

net blog iss 壓縮完全文件 storage 手工兩個數據遷移備份，更多的應用場景見https://docs.azure.cn/zh-cn/storage/common/storage-moving-data?toc=%2fstorage%2fblobs%

數據遷移，iis的各種坑

都是客戶現場 bug 目錄 frame 設置解決方案 windows認證多次最近在搞iis發布本來在家裏實驗過很多次都是可以的覺得很容易！但是到客戶現場去試的時候發現各種坑在這裏給大家說說望大家註意點哈！首先：數據遷移先是備份數據庫，然後再還原這

ASP.NET MVC 之CodeFirst 數據遷移

當我 mes mvc text -1 數據庫初始有關添加 generate CodeFirst模式下如果一個類的屬性增加或者刪除那麽與其對應的就是數據庫中所對應的字段增加或者刪除一個屬性變化還好，我們直接可以到數據庫中找到，所對應的表中，對其修改

Code First Migrations更新數據庫結構（數據遷移）

ply 示例文件夾就會 class .com loss ati user 背景 code first起初當修改model後，要持久化至數據庫中時，總要把原數據庫給刪除掉再創建（DropCreateDatabaseIfModelChanges），此時就會產生一個問題，當

不同關系數據庫關系數據庫的數據遷移

int creates 程序 rman res stat clip manage rom 方案1：導出數據庫文件-導入方案2：navicat prrmium 數據傳輸相同數據庫軟件之間效果好，不同數據庫軟件之間有一些問題方案3：寫程序，連接舊數據庫，取出數據，連接新數據庫，

Kettle進行數據遷移（ETL）

遷移數據 rom 原因分析 pre jdb 總結界面 shift regex 　由於開發新的系統，需要將之前一個老的C/S應用的數據按照新的數據設計導入到新庫中。此過程可能涉及到表結構不一致、大數據量（千萬級，甚至上億）等情況，包括異構數據的抽取、清洗等等工作。部分復雜的

laravel數據遷移(創建錯誤列不能創建)

5.4 mage creat org use 實感命令遷移 migration 創建數據表的命令 php artisan make:migration create_users_table 執行這個遷移的命令， php artisan migrate 其實感覺就

數據遷移

數據庫 __main__ 分享 sta 輸入模型 models () import 1. pip install flask-migrate #Flask-Migrate 是一個數據遷移框架,需要通過Flask-script庫來操作. 2. pip install fl

sqoop數據遷移

概述

工作機制

sqoop實戰及原理

sqoop安裝

1.下載並解壓

2.修改配置文件

3、加入mysql的 jdbc驅動包

4、驗證啟動

Sqoop的數據導入

語法

導入表表數據到HDFS

導入關系表到HIVE

導入到HDFS指定目錄

導入表數據子集

增量導入

Sqoop的數據導出

語法

相關推薦

3、加入mysql的

jdbc驅動包