sqoop 數據遷移

阿新 • • 發佈：2017-12-19

imp oop 1.4 eight 解壓 ron 生成 exec 需要

sqoop 數據遷移

1 概述

　　sqoop是apache旗下一款“Hadoop和關系數據庫服務器之間傳送數據”的工具。

　　導入數據：MySQL，Oracle導入數據到Hadoop的HDFS、HIVE、HBASE等數據存儲系統。

　　導出數據：從Hadoop的文件系統中導出數據到關系數據庫。

2 工作機制

　　將導入或導出命令翻譯成mapreduce程序來實現。

　　在翻譯出的mapreduce中主要是對inputformat和outputformat進行定制。

3 sqoop 安裝

　　安裝sqoop的前提是已經具備java和hadoop的環境。

　　3.1 下載並解壓

　　　　 http://ftp.wayne.edu/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

　　3.2 修改配置文件　

$ cd $SQOOP_HOME/conf

$ mv sqoop-env-template.sh sqoop-env.sh

打開sqoop-env.sh並編輯下面幾行：

export HADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/

export HADOOP_MAPRED_HOME=/home/hadoop/apps/hadoop-2.6.1/

export HIVE_HOME=/home/hadoop/apps/hive-1.2.1

　　3.3 加入mysql的jdbc驅動　　　

cp  ~/app/hive/lib/mysql-connector-java-5.1.28.jar   $SQOOP_HOME/lib/

　　3.4 啟動驗證

$ cd $SQOOP_HOME/bin
$ sqoop-version

　　輸出：

　　15/12/17 14:52:32 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6

　　Sqoop 1.4.6 git commit id 5b34accaca7de251fc91161733f906af2eddbe83

　　Compiled by abe on Fri Aug 1 11:19:26 PDT 2015

　　到這裏，整個Sqoop安裝工作完成

4 數據導入

　　4.1 下面的命令用於從MySQL數據庫服務器中的emp表導入HDFS

$bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test \
--username root --password root --table emp --m 1

　　4.2 導入數據到HIVE

bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --table emp --hive-import --m 1

　　4.3 導入到HDFS指定目錄

--target-dir <new or exist directory in HDFS>

　　下面的命令是用來導入emp_add表數據到‘/queryresult‘目錄。

bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test \
--username root --password root --target-dir /queryresult --table emp --m 1

　　4.4 導入表數據子集

　　我們可以導入表的使用Sqoop導入工具，"where"子句的一個子集。它執行在各自的數據庫服務器相應的SQL查詢，並將結果存儲在HDFS的目標目錄。

　　where子句的語法如下。　

--where <condition>

　　下面的命令用來導入emp_add表數據的子集。子集查詢檢索員工ID和地址，居住城市為：Secunderabad　

bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test \
--username root --password root --where "city =‘sec-bad‘" --target-dir /wherequery --table emp_add --m 1

　　4.5 增量導入

　　增量導入是僅導入新添加的表中的行的技術。它需要添加‘incremental’, ‘check-column’, 和 ‘last-value’選項來執行增量導入。下面的語法用於Sqoop導入命令增量選項。　　

--incremental <mode>
--check-column <column name>
--last value <last check column value>

　　假設新添加的數據轉換成emp表如下

　　1206, satish p, grp des, 20000, GR

　　下面的命令用於在EMP表執行增量導入

bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test \
--username root --password root --table emp --m 1 --incremental append --check-column id --last-value 1205

5 數據導出

　　將數據從HDFS導出到RDBMS數據庫。

　　導出前，目標表必須存在於目標數據庫中。

　　默認操作是從將文件中的數據使用INSERT語句插入到表中。

　　更新模式下，是生成UPDATE語句更新表數據。

　　語法：　

$ sqoop export (generic-args) (export-args)

　　5.1 將hdfs數據導出到mysql

　　　　1)首先在mysql中創建目標表　　

 CREATE TABLE employee ( 
   id INT NOT NULL PRIMARY KEY, 
   name VARCHAR(20), 
   deg VARCHAR(20),
   salary INT,
   dept VARCHAR(10));

　　　　2)執行導出命令　

bin/sqoop export --connect jdbc:mysql://hdp-node-01:3306/test \
--username root --password root --table employee --export-dir /user/hadoop/emp/

6 sqoop 作業

　　6.1創建作業

　　　　在這裏，我們創建一個名為myjob，這可以從RDBMS表的數據導入到HDFS作業。　　

bin/sqoop job --create myimportjob -- import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --table emp --m 1

　　　　該命令創建了一個從db庫的employee表導入到HDFS文件的作業。

　　6.2 驗證作業（--list）　

$ sqoop job --list

　　它顯示了保存作業列表。

　　Available jobs:

　myjob

　　‘--show’ 參數用於檢查或驗證特定的工作，及其詳細信息　　

$ sqoop job --show myjob

　　6.3 執行作業

　　‘--exec’ 選項用於執行保存的作業。下面的命令用於執行保存的作業稱為myjob。　

$ sqoop job --exec myjob

sqoop 數據遷移

sqoop數據遷移

tro sta 地址導出 sequence and git create column 概述 sqoop是apache旗下一款“Hadoop和關系數據庫服務器之間傳送數據”的工具。導入數據：MySQL，Oracle導入數據到Hadoop的HD

sqoop 數據遷移

imp oop 1.4 eight 解壓 ron 生成 exec 需要 sqoop 數據遷移 1 概述　　sqoop是apache旗下一款“Hadoop和關系數據庫服務器之間傳送數據”的工具。　　導入數據：MySQL，Oracle導入數據到Hadoop的HDFS、HIV

sqoop 之數據遷移

1.2 ide span data conf error nds 修改配置文件解壓安裝sqoop的前提是已經具備java和hadoop的環境 1、下載並解壓最新版下載地址http://ftp.wayne.edu/apache/sqoop/1.4.6/ 2、修改配

redis數據遷移

rubygems 主從同步 ash 清空備份工具 mov class pipe 一：AOF方式需求：一個沒有數據的redis。清空redis數據方法 bash> echo "keys *" | redis-cli --raw -p 6378 |sed -r

MySql數據遷移

reat div 創建 8.0 har code roo eight 文件在源主機上，先使用mysqldump命令備份，導出sql腳本文件 mysqldump -uroot -p tel > /opt/tel_dev.sql 也可指定編碼 mysqldump

centos下mysql數據遷移方法

重新安裝步驟數據庫恢復 basedir 第三方 datadir order mysql 正常第一種：原始數據庫不需要重新安裝：默認mysql會安裝在/var/lib/mysql這裏，若將數據遷移到/data/mysql目錄下，步驟如下： 1、停止mysql服務 2

數據遷移過程中hive sql調優

操作 reduce mapred set mon 事情 clas 過程高效本文記錄的是，在數據處理過程中，遇到了一個sql執行很慢，對一些大型的hive表還會出現OOM，一步一步通過參數的設置和sql優化，將其調優的過程。先上sql select t1.create

isv大規模數據遷移和加密

構圖業務 log 數據架構遷移用戶重復進行例如由於公司的核心業務合作夥伴淘寶網，最近出現泄漏用戶信息的現象，找了好久找不到根源，於是乎，淘寶那邊決定對所有敏感數據進行加密，從出口和入口都走密文，於是乎，我們的工作量就來了。　　我們的一個底單數據庫，存儲了大量

EF數據遷移命令

控制應該 id字段更新準備使用驗證 pac line 在包管理器控制臺中輸入命令“enable-migrations”，然後按Enter鍵！Visual Studio將生成一個名為“Configurations.cs&rdquo

HDFS數據遷移目錄到正確姿勢

pre -h -s dir 目錄關閉所有 white cdh 添加了一塊硬盤，原來的DataNode已經把原有的硬盤占滿；怎麽辦，想要把舊有的數據遷移到新的硬盤上面； 1. 在CDH中修改目錄（在HDFS組件中搜索.dir)，本例中，新加的硬盤掛載在/data上面，Na

EF數據遷移，未將對象引用設置到對象實例

數據庫 provider strings ram 配置錯誤信息 nbsp 實例 enc 現象：執行Enable-Migrations -force時就報“未將對象引用設置到對象實例”的異常： DbProviderServicesExtensions.GetProvide

linux服務器數據遷移—全網備份

全網備份項目需求說明：1) 所有服務器的備份目錄必須都為/backup。2) 要備份的系統配置文件包括但不限於： a.定時任務服務的配置文件(/var/spool/cron/root)（適合 web 和 nfs 服務器）。 b.開機自啟動的配置文件(/etc/rc.local)（適合 web 和 nf

Azure Blob數據遷移工具

net blog iss 壓縮完全文件 storage 手工兩個數據遷移備份，更多的應用場景見https://docs.azure.cn/zh-cn/storage/common/storage-moving-data?toc=%2fstorage%2fblobs%

數據遷移，iis的各種坑

都是客戶現場 bug 目錄 frame 設置解決方案 windows認證多次最近在搞iis發布本來在家裏實驗過很多次都是可以的覺得很容易！但是到客戶現場去試的時候發現各種坑在這裏給大家說說望大家註意點哈！首先：數據遷移先是備份數據庫，然後再還原這

ASP.NET MVC 之CodeFirst 數據遷移

當我 mes mvc text -1 數據庫初始有關添加 generate CodeFirst模式下如果一個類的屬性增加或者刪除那麽與其對應的就是數據庫中所對應的字段增加或者刪除一個屬性變化還好，我們直接可以到數據庫中找到，所對應的表中，對其修改

Code First Migrations更新數據庫結構（數據遷移）

ply 示例文件夾就會 class .com loss ati user 背景 code first起初當修改model後，要持久化至數據庫中時，總要把原數據庫給刪除掉再創建（DropCreateDatabaseIfModelChanges），此時就會產生一個問題，當

不同關系數據庫關系數據庫的數據遷移

int creates 程序 rman res stat clip manage rom 方案1：導出數據庫文件-導入方案2：navicat prrmium 數據傳輸相同數據庫軟件之間效果好，不同數據庫軟件之間有一些問題方案3：寫程序，連接舊數據庫，取出數據，連接新數據庫，

Kettle進行數據遷移（ETL）

遷移數據 rom 原因分析 pre jdb 總結界面 shift regex 　由於開發新的系統，需要將之前一個老的C/S應用的數據按照新的數據設計導入到新庫中。此過程可能涉及到表結構不一致、大數據量（千萬級，甚至上億）等情況，包括異構數據的抽取、清洗等等工作。部分復雜的

laravel數據遷移(創建錯誤列不能創建)

5.4 mage creat org use 實感命令遷移 migration 創建數據表的命令 php artisan make:migration create_users_table 執行這個遷移的命令， php artisan migrate 其實感覺就

數據遷移

數據庫 __main__ 分享 sta 輸入模型 models () import 1. pip install flask-migrate #Flask-Migrate 是一個數據遷移框架,需要通過Flask-script庫來操作. 2. pip install fl

sqoop 數據遷移