sqoop的import與export及其指令碼使用

阿新 • • 發佈：2019-01-27

Sqoop官方網址：http://sqoop.apache.org/

一、Sqoop的誕生

1、存在的問題

⑴RDBMS：資料大量儲存在RDBMS（Oracle、MySQL、DB2等）上，如果需要對資料進行分析，需要將這些資料遷移到HDFS上去。

2、Sqoop的產生和作用

⑴Sqoop:Sql-to-Hadoop

⑵將關係資料庫中的某張表資料抽取到Hadoop的HDFS檔案系統當中，底層執行還是MapReduce。

⑶將HDFS上的檔案資料或者是Hive表中的資料匯出到關係型資料庫中的某張表中。

⑷Sqoop利用MapReduce批處理方式進行資料傳輸加快資料傳輸速度。

二、sqoop的版本

1、Sqoop1 & Sqoop2兩個不同版本，完全不相容；

2、Sqoop2比Sqoop1的改進

⑴引入Sqoop server，集中化管理Connector等；

⑵多種訪問方式：CLI，Web UI，REST API ;

⑶引入基於角色的安全機制；

三、sqoop的架構

四、sqoop的使用

1、Sqoop使用要點

2、測試Sqoop

⑴連結MySQL資料庫，並list資料庫中的databases，測試Sqoop是否配置正確。
$bin/sqoop list-databases \
--connect jdbc:mysql://hostname:3306 \
--username root \
--password root 
3、import

⑴預設情況下匯入資料到HDFS
$/bin/sqoop import \
--connect jdbc:mysql://hostname:3306/mydb \
--username root \
--password root \
--table mytable
⑵指定目錄和Mapper個數匯入HDFS
①建立目錄
${HADOOP_HOME}/bin/hdfs dfs -mkdir -p /user/sqoop/
②設定map個數為1，指定目錄為/user/sqoop/，如果目標目錄已經存在則先刪除
$ bin/sqoop import \
--connect jdbc:mysql://blue01.mydomain:3306/mydb \
--username root \
--password root \
--table my_user \
--target-dir /user/hive/warehouse/my_user \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--columns  id,passwd \
--where "id<=3" 
⑶增量匯入HDFS ①增量匯入資料到HDFS檔案中，可以通過下面三個引數進行設定： --check-column --incremental --last-value
$bin/sqoop import \
--connect jdbc:mysql://hostname:3306/mydb \
--username root \
--password root \
--table mytable \
--num-mappers 1 \
--target-dir /user/sqoop/ \
--fields-terminated-by "\t" \
--check-column id \
--incremental append \
--last-value 4      //表示從第5位開始匯入
⑷指定檔案格式匯入HDFS ①預設情況下，匯入資料到HDFS，檔案儲存格式為textfile，可以通過屬性進行指定，比如檔案儲存格式為parquet
$bin/sqoop import \
--connect jdbc:mysql://hostname:3306/mydb \
--username root \
--password root \
--table mytable \
--num-mappers 1 \
--target-dir /user/sqoop/ \
--fields-terminated-by "\t" \
--as-parquetfile
⑸指定壓縮格式匯入HDFS ①預設情況下，匯入的HDFS檔案是不壓縮的，可以通過屬性--compress 和 --compression-codec設定；
$bin/sqoop import \
--connect jdbc:mysql://hostname:3306/mydb \
--username root \
--password root \
--table mytable \
--num-mappers 1 \
--target-dir /user/sqoop/ \
--fields-terminated-by "\t" \
--compress \
--compression-codec org.apache.hadoop.io.compress.SnappyCodec
⑹把select查詢結果匯入HDFS ①把select查詢結果匯入HDFS，必須包含'$CONDITIONS'在where子句中；
$ bin/sqoop import \
--connect jdbc:mysql://hostname:3306/mydb \
--username root \
--password root \
--target-dir /user/hive/warehouse/mydb.db/mytable \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--query 'select id,account from my_user where id>=3 and $CONDITIONS'
⑺匯入資料到Hive中
$ bin/sqoop import \
--connect jdbc:mysql://hostname:3306/mydb \
--username root \
--password root \
--table mytable \
--num-mappers 1 \
--hive-import \
--hive-database mydb \
--hive-table mytable \
--fields-terminated-by "\t" \
--delete-target-dir \
--hive-overwrite 
⑻指令碼的使用（以資料匯入為例） ①匯入資料到HDFS
export
--connect
jdbc:mysql://hostname:3306/mydb
--username
root
--password
root
--table
mytable
--num-mappers
1
--export-dir
/user/hive/warehouse/mydb.db/mytable
--input-fields-terminated-by
"\t"
②執行指令碼
$ bin/sqoop  --options-file xxx.opt
4、export⑴從Hive或者HDFS匯出資料到MySQL
$ bin/sqoop export \
--connect jdbc:mysql://hostname:3306/mydb \
--username root \
--password root \
--table mytable \
--num-mappers 1 \
--export-dir /user/hive/warehouse/mydb.db/mytable \
--input-fields-terminated-by "\t"

sqoop的import與export及其指令碼使用

Sqoop官方網址：http://sqoop.apache.org/ 一、Sqoop的誕生 1、存在的問題 ⑴RDBMS：資料大量儲存在RDBMS（Oracle、MySQL、DB2等）上，如果需要

理解Java的反射與內省及其區別

XML mat fun cal length [0 基礎 protocal 類名 java的內省機制和反射機制什麽區別內省操作只針對JavaBean，只有符合JavaBean規則的類的成員才可以采用內省API進行操作。。。。而反射則不同，一個類的所有成員都可以進行反射操作

js的import 與export詳解

node 直接 console 路徑 java strong tro {} 匿名函數 ES6 1.export default 其他模塊加載該模塊時，import命令可以為該匿名函數指定任意名字。如： import Vue from ‘vue‘ vue裏面的第三方模塊

編碼的種類與發展史及其表現形式

中文 gb2312 byte 浪費 asc python 包含存儲代碼編碼二 ascii: 字母，數字，特殊字符。 A: 0000 0010 B: 0000 0010 unicode: 萬國碼，包

比特幣的鎖定指令碼與解鎖指令碼

鎖定指令碼：這筆錢傳送給A（包含A的共鑰）；解鎖指令碼：我是A，這筆錢是我的；鎖定指令碼：我要驗證你的身份；解鎖指令碼：這個是我用我的私鑰簽名的上一筆交易資訊的簽名；礦工： 1、使用解鎖指令碼關聯的公鑰的地址的hash資訊與鎖定指令碼的地址hash比較； 2

JS：export 與export default的區別，結合import的用法

export：輸出本模組（一般一個檔案認為是一個模組）提供給外部使用的介面； import：引入其他模組，供本檔案使用，可以引用的就是export輸出的介面； export有兩種方式：export 或者export default；兩者的相同點與區別點如下： 1、兩者均可用於匯出常量

模組匯出簡介：module.exports與export

module.exports module.exports是Node中遵循的CommonJS模組規範。每個檔案就是一個模組。 module代表當前模組；exports代表對外的介面。 Node為每個模組提供了一個exports變數，指向module.exports，（就如同在

export default與export的區別

1.export default 和export都可以用於匯出常量，函式，檔案，模組等； 2.可以在模組中通過import+(常量 | 函式 | 檔案 | 模組)名的方式，將其匯入，以便能夠對其進行使用 3.在一個檔案或者模組中，export,import可以有多個，但是export default只能有

eclipse 中 check out 與 export 的區別

1.check out跟check in對應，export跟import對應。 2.check out匯出獲得檔案後，匯出的檔案仍處於SVN版本控制中，與版本庫保持關聯，比如你可以進行Svn Update或者Svn Commit操作。同時匯出資料夾下有一個.svn的隱藏資料夾，儲存著一些版本的元資料

shell與awk的指令碼運用（三）

要求：取出log中最後以GG結尾，並且下一行的ip欄位是否包含aaaa，這兩行必須是同一個人，然後將這兩行的指定資訊輸出到最終檔案中。 #!/bin/bash #指令碼宣告 file=`ls *.LOG` #列出所有log檔案 a=0 #定義變數a的值

es6 import 與 export

1、export 命令 export 命令用於規定模組的對外介面。一個模組就是一個獨立的檔案。該檔案內部所有的變數，外部無法獲取。要想外部能夠讀取模組內部的某個變數，就必須使用 export 關鍵字輸出該變數。語法： 1 export { name1, name2, …,

Kafka_Kafka 消費者偏移量與積壓查詢指令碼 kafka-consumer-groups.sh

本文章對應的 kafka 版本是 kafka_2.11-0.10.0.1 版本號的含義 scala 2.11 kafka 0.10.0.1 背景： kafka 0.9 及以上有了一個大版本變化，主要有以下幾個方面： 1.kafka-cli

輸出拓撲排序的所有可能結果(題目來源：演算法分析與設計及其案例教程第五章課後習題第五題)

這是我在csdn 的第②篇部落格該篇為C++程式碼原題問的是實現拓撲排序的方法，但答案給除了所有的拓撲排序的可能。看到答案這麼寫我就在想如何才能輸出所有拓撲排序的結果?，但我一開始只能寫出輸出一種可能的拓撲排序結果的程式碼，經過一天的查詢資料後在CSDN

MySQL資料型別之BLOB與TEXT及其最大儲存限制

https://blog.csdn.net/q3dxdx/article/details/51014357 BLOB，二進位制大物件（位元組流）。可以用來儲存圖片，聲音和視訊等二進位制檔案。沒有字符集的說法。 TEXT，文字大物件（字元流）

kafka叢集一鍵啟動與停止shell指令碼

kafka叢集一鍵啟動與停止shell指令碼準備工作：已經配置了主機與ip對映關係，已經配置了免密登入；一、啟動Kafka叢集的指令碼自定義start_kafka_byfang.sh，啟動kafka叢集中所有節點 #!/bin/bash BROKERS="hx

mysql 全量備份與增量備份指令碼

全量備份 [[email protected] scripts]# cat wqbk.sh #!/bin/bash #use mysqldump to fully backup mysql data BakDir=/mnt/sata02/backup/wq

eclipse 中 check out 與 export 的區別

1.check out跟check in對應，export跟import對應。 2.check out匯出獲得檔案後，匯出的檔案仍處於SVN版本控制中，與版本庫保持關聯，比如你可以進行Svn Update或者Svn Commit操作。同時匯出資料夾下有一個.svn的隱藏資料夾

exports與module.exports的區別,export與export.defult區別

使用 es6 webpack 前端工程關系 import 接口的區別通過在JS模塊化編程中，之前使用的是require.js或者sea.js。隨著前端工程化工具webpack的推出，使得前端js可以使用CommonJS模塊標準或者使用ES6 moduel特性。在C

ES6中export與export default的用法

在開發過程中遇到了一個問題，記錄下引起深刻記憶：程式碼如下：設定一個配置urlexport default { url: 'http:/192.168.1.5:8080'} 引用import { url } from '../config/comm

Linux Shell Bash 互動與非互動式指令碼

互動式的shell會在tty上從使用者輸入中讀取命令. 另一方面, 這樣的shell能在啟動時讀取啟動檔案, 顯示一個提示符, 並預設啟用作業控制. 也就是說, 使用者可以與shell互動. shell所執行的指令碼通常都是非互動的shell. 但是指令碼仍然可以訪問它的tty. 甚至可以在指令碼中模擬一

sqoop的import與export及其指令碼使用

相關推薦