大資料學習——Sqoop入門使用

阿新 • • 發佈：2019-01-24

Sqoop

概述

Sqoop是一個用來將Hadoop和關係型資料庫中的資料相互轉移的工具，可以將一個關係型資料庫（例如： MySQL ,Oracle ,Postgres等）中的資料導進到Hadoop的HDFS中，也可以將HDFS的資料導進到關係型資料庫中。
架構示意圖：

這裡寫圖片描述

Sqoop整合了Hive、Hbase和Oozie，通過map-reduce任務來傳輸資料，從而提供併發特性和容錯。

Sqoop1與Sqoop2

兩個不同的版本，完全不相容
版本號劃分區別，Apache版本：1.4.x(Sqoop1); 1.99.x(Sqoop2) CDH版本 : Sqoop-1.4.3-cdh4(Sqoop1) ; Sqoop2-1.99.2-cdh4.5.0 (Sqoop2)

Sqoop2比Sqoop1的改進
引入Sqoop server，集中化管理connector等
多種訪問方式：CLI,Web UI，REST API
引入基於角色的安全機制

Sqoop1架構

這裡寫圖片描述

Sqoop2架構

這裡寫圖片描述

Sqoop1與Sqoop2比較

比較	Sqoop1	Sqoop2
架構	僅僅使用一個Sqoop客戶端	引入了Sqoop server集中化管理connector,以及rest api,web,UI，並引入安全機制
部署	部署簡單，安裝需要root許可權，connector必須符合JDBC模型	架構稍複雜，配置部署更繁瑣
使用	命令列方式容易出錯，格式緊耦合，無法支援所有資料型別，安全機制不夠完善，例如密碼暴露	多種互動方式，命令列、webUI、rest API、connector集中化管理，所有的連結安裝在Sqoop server上，完善許可權管理機制，connector規範化，僅僅負責資料的讀寫

安裝

wget http://mirror.bit.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
mv sqoop-1.4.6.tar.gz /home
cd /home
tar -zxf sqoop-1.4 
.6.tar.gz
rm sqoop-1.4.6.tar.gz
cd /home/sqoop-1.4.6/lib/
# mysql
wget http://central.maven.org/maven2/mysql/mysql-connector-java/5.1.10/mysql-connector-java-5.1.10.jar
# postgre
wget https://jdbc.postgresql.org/download/postgresql-9.4-1206-jdbc4.jar

配置環境變數

vim /etc/profile

#sqoop
export SQOOP_HOME=/home/sqoop-1.4.6
export PATH=$PATH:$SQOOP_HOME/bin

source /etc/profile

配置檔案

cd /home/sqoop-1.4.6/conf/
cp sqoop-env-template.sh sqoop-env.sh
vim sqoop-env.sh

內容：

#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/home/hadoop/hadoop-2.7.3

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/home/hadoop/hadoop-2.7.3

#set the path to where bin/hbase is available
#export HBASE_HOME=

#Set the path to where bin/hive is available
#export HIVE_HOME=

#Set the path for where zookeper config dir is
#export ZOOCFGDIR=

vim /home/sqoop-1.4.6/bin/configure-sqoop

註釋掉下面部分（如果使用HCatalog Accumulo等則不用此操作）
## Moved to be a runtime check in sqoop.
if [ ! -d "${HCAT_HOME}" ]; then
  echo "Warning: $HCAT_HOME does not exist! HCatalog jobs will fail."
  echo 'Please set $HCAT_HOME to the root of your HCatalog installation.'
fi
if [ ! -d "${ACCUMULO_HOME}" ]; then
  echo "Warning: $ACCUMULO_HOME does not exist! Accumulo imports will fail."
  echo 'Please set $ACCUMULO_HOME to the root of your Accumulo installation.'
fi

測試

sqoop version
sqoop import --help

使用示例

簡單示例：

sqoop import --connect jdbc:mysql://ip:3306/metastore --username hiveuser --password redhat --table TBLS

通過檔案配置引數：

sqoop --options-file /users/homer/work/import.txt --table TEST

import.txt

import
--connect
jdbc:mysql://192.168.56.121:3306/metastore
--username
hiveuser
--password 
redhat

使用說明

測試連線

sqoop list-databases --connect jdbc:postgresql://ip/testdb --username root --P

顯示錶

sqoop list-tables --connect jdbc:postgresql://ip/testdb --username root --P

從關係資料庫導HDFS

sqoop import --connect jdbc:postgresql://ip/testdb  --username root --P  --table fin_cashier_order --target-dir/user/hadoop/databases/ssa/fin_cashier_order -m 4

使用 sql 語句

$ sqoop import --connect jdbc:mysql://IP:3306/metastore --username hiveuser --password redhat --query 'SELECT * from TBLS where \$CONDITIONS ' --split-by tbl_id -m 4 --target-dir /user/hive/result
上面命令通過 -m 1 控制併發的 map 數。

direct

$ sqoop import --connect jdbc:mysql://ip:3306/metastore --username hiveuser --password redhat --table TBLS --delete-target-dir --direct --default-character-set UTF-8 --target-dir /user/hive/result

指定檔案輸出格式

sqoop import --connect jdbc:mysql://ip:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by"\t" --lines-terminated-by "\n" --delete-target-dir --target-dir /user/hive/result

從HDFS導到關係資料庫(未驗證)

sqoop export --connect jdbc:mysql://hadoop003:3306/ssa --table fin_cashier_order2 --username root--password ****** --export-dirhdfs://jrtestcluster/user/hadoop/databases/ssa/fin_cashier_order/

其它引數：

引數	說明
–append	將資料追加到hdfs中已經存在的dataset中。使用該引數，sqoop將把資料先匯入到一個臨時目錄中，然後重新給檔案命名到一個正式的目錄中，以避免和該目錄中已存在的檔案重名。
–as-avrodatafile	將資料匯入到一個Avro資料檔案中
–as-sequencefile	將資料匯入到一個sequence檔案中
–as-textfile	將資料匯入到一個普通文字檔案中，生成該文字檔案後，可以在hive中通過sql語句查詢出結果。
–boundary-query	邊界查詢，也就是在匯入前先通過SQL查詢得到一個結果集，然後匯入的資料就是該結果集內的資料，格式如：–boundary-query ‘select id,no from t where id = 3’，表示匯入的資料為id=3的記錄，或者 select min(), max() from ，注意查詢的欄位中不能有資料型別為字串的欄位，否則會報錯
–columns	指定要匯入的欄位值，格式如：–columns id,username
–direct	直接匯入模式，使用的是關係資料庫自帶的匯入匯出工具。官網上是說這樣匯入會更快
–direct-split-size	在使用上面direct直接匯入的基礎上，對匯入的流按位元組數分塊，特別是使用直連模式從PostgreSQL匯入資料的時候，可以將一個到達設定大小的檔案分為幾個獨立的檔案。
–inline-lob-limit	設定大物件資料型別的最大值
-m,–num-mappers	啟動N個map來並行匯入資料，預設是4個，最好不要將數字設定為高於叢集的節點數
–query，-e	從查詢結果中匯入資料，該引數使用時必須指定–target-dir、–hive-table，在查詢語句中一定要有where條件且在where條件中需要包含 $CONDITIONS，示例：–query ‘select * from t where $CONDITIONS ’ –target-dir /tmp/t –hive-table t
–split-by	表的列名，用來切分工作單元，一般後面跟主鍵ID
–table	關係資料庫表名，資料從該表中獲取
–delete-target-dir	刪除目標目錄
–target-dir	指定hdfs路徑
–warehouse-dir	與 –target-dir 不能同時使用，指定資料匯入的存放目錄，適用於hdfs匯入，不適合匯入hive目錄
–where	從關係資料庫匯入資料時的查詢條件，示例：–where “id = 2”
-z,–compress	壓縮引數，預設情況下資料是沒被壓縮的，通過該引數可以使用gzip壓縮演算法對資料進行壓縮，適用於SequenceFile, text文字檔案, 和Avro檔案
–compression-codec	Hadoop壓縮編碼，預設是gzip
–null-string	可選引數，如果沒有指定，則字串null將被使用
–null-non-string	可選引數，如果沒有指定，則字串null將被使用

大資料學習——Sqoop入門使用

Sqoop 概述 Sqoop是一個用來將Hadoop和關係型資料庫中的資料相互轉移的工具，可以將一個關係型資料庫（例如： MySQL ,Oracle ,Postgres等）中的資料導進到Hadoop的HDFS中，也可以將HDFS的資料導進到關係型資料庫

大資料學習 ------ Scala入門

1.1 為什麼要學Scala語言[1] 1.優雅：這是框架設計師第一個要考慮的問題，框架的使用者是應用開發程式設計師，API是否優雅直接影響使用者體驗。 Martin OrderSke （scala發人） Epel瑞士科技大學 Javac是Matin編寫的

大資料學習初級入門教程（一） —— Hadoop 2.x 的安裝、啟動和測試

大資料最基礎的就是資料的儲存和計算，而 Hadoop 就是為儲存和計算而生，是最基礎的大資料處理工具。這篇簡單寫寫 Hadoop 2.x 的安裝，啟動和測試。一、準備環境大資料環境的部署，一般都是叢集，機器數量為奇數，這裡以 5 臺機器為例，作業系統為 CentOS 6.9_x64；

大資料學習——HBase 入門

HBase 學習環境 shiyanlou 《HBase介紹、安裝與應用案例》 - CentOS6.6 64位 - JDK 1.7.0_55 64位 - Hadoop 1.1.2 Hbase 介紹 HBase ——Hadoop Databa

如何快速入門大資料學習，有哪些入門技巧

最近一年的時間裡，我見證了很多朋友完成大資料入門的轉型，他們之中有從事傳統行業，有剛從校園畢業，也有做著與資料毫不相關的網際網路工作。當然，在他們選擇方向即將裸辭的同時，我也與一些朋友進行交談過，並從我的個人角度上給予了一些實質性的建議，以及鼓勵。本文分享一位科多大資料張老師的資料入門故事，希望能夠

Linux基礎入門---學習心得大資料學習|小白學習大資料需要滿足這六個條件你就能學好大資料

有很多學習大資料的朋友，在初期學習時，通常會對如何學習而感到迷茫。我經常收到零基礎的朋友關於如何入門、如何規劃學習大資料、大資料的學習流程是什麼的一些問題。今天我就粗淺的總結幾點學習大資料方法。一、興趣建立興趣是可以讓一個人持續關注一個事物的核心動力,那麼興趣的培養就非常重要了。如果你把寫程式單純作為

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（1）

1、Zookeeper用於叢集主備切換。 2、YARN讓叢集具備更好的擴充套件性。 3、Spark沒有儲存能力。 4、Spark的Master負責叢集的資源管理，Slave用於執行計算任務。 5、Hadoop從2.x開始，把儲存和計算分離開來，形成兩個相對獨立的子叢集：HDF

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（2）

501、MapReduce計算框架中的輸入和輸出的基本資料結構是鍵-值對。 502、Hadoop神奇的一部分在於sort和shuffle過程。 503、Hive驅動計算的“語言”是一XML形式編碼的。 504、Hive通過和Jobtracker通訊來初始化MapReduce任務（Job）。 505、M

大資料學習記錄（hadoop hive flume azkaban sqoop）

大資料學習記錄（hadoop hive flume azkaban sqoop） 1. hadoop對海量資料進行分散式處理 2. 核心元件：HDFS（分散式檔案系統）、YARN（運算資源排程系統）、MAPREDUCE（分散式運算程式設計框架） 3. HIVE：基於大資料技術（檔案系統+運算框架

入門到精通：資深程式設計師規劃JAVA大資料學習路線（附視訊教程）

人類正在從IT時代走向DT（Data Technology）的時代。以網際網路、雲端計算、大資料和人工智慧為代表的技術革命正在滲透至各行各業，改變著我們的生活。本文主要針對從事大資料開發的程式設計師們整理了整套的大資料學習相關的路線圖和知識材料，希望能幫助到大家。很多初學者，對大資

大資料是什麼？0基礎大資料怎麼進行入門學習？

0基礎我們該怎麼進行大資料入門學習呢？帶你們一起來學習。一、大資料是什麼? 大資料，big data，《大資料》一書對大資料這麼定義，大資料是指不能用隨機分析法(抽樣調查)這樣捷徑，而採用所有資料進行分析處理。這句話至少傳遞兩種資訊：。 1、大資料是海量的資料 2、大資料處理

大資料學習入門必備規劃，想學習大資料？這才是完整的大資料學習體系

大資料方向的工作目前分為三個主要方向: 01.大資料工程師 02.資料分析師 03.大資料科學家 04.其他（資料探勘本質算是機器學習，不過和資料相關，也可以理解為大資料的一個方向吧）一、大資料工程師的技能要求二、大資料學習路徑三、學習資源推

大資料架構師入門學習

經常有初學者在部落格和QQ問我，自己想往大資料方向發展，該學哪些技術，學習路線是什麼樣的，覺得大資料很火，就業很好，薪資很高。如果自己很迷茫，為了這些原因想往大資料方向發展，也可以，那麼我就想問一下，你的專業是什麼，對於計算機/軟體，你的興趣是什麼?是計算機專業，對作業系統、硬體、網路、伺服器感興趣

學習筆記:從0開始學習大資料-11. sqoop安裝部署

環境：centos7 已安裝java和hadoop 1.下載 wget http://archive.cloudera.com/cdh5/cdh/5/sqoop2-1.99.5-cdh5.16.0.tar.gz 2.解壓 tar -zxvf sqoop2-1.99.5-cdh5.16.0.t

大資料入門的知識體系，大資料學習路線

任何學習過程都需要一個科學合理的學習路線，才能夠有條不紊的完成我們的學習目標。大資料所需學習的內容紛繁複雜，難度較大，有一個合理的大資料學習路線圖幫忙理清思路就顯得尤為必要。一、Java語言以java語言為基礎掌握面向物件程式設計思想所涉及的知識，以

大資料學習之Hadoop快速入門

1、Hadoop生態概況 Hadoop是一個由Apache基金會所開發的分散式系統整合架構，使用者可以在不瞭解分散式底層細節情況下，開發分散式程式，充分利用叢集的威力來進行高速運算與儲存，具有可靠、高效、可伸縮的特點。大資料學習資料分享群119599574 Hadoop

大資料學習入門到精通

多想在萌生向大資料方向發展的想法之後，不免產生一些疑問，應該怎樣入門？應該學習哪些技術？學習路線又是什麼？所有萌生入行的想法與想要學習Java的同學的初衷是一樣的。崗位非常火，就業薪資比較高,，前景非常可觀。基本都是這個原因而嚮往大資料，但是對大資料卻不甚瞭解。如果你想學習，那麼首

大資料學習Hadoop快速入門

1、Hadoop生態概況 Hadoop是一個由Apache基金會所開發的分散式系統整合架構，使用者可以在不瞭解分散式底層細節情況下，開發分散式程式，充分利用叢集的威力來進行高速運算與儲存，具有可靠、高效、可伸縮的特點。大資料學習群119599574 Hadoop的核心是Y

大資料學習系列8-Centos6.7 hadoop-2.6.5下sqoop-1.4.6的安裝部署

安裝sqoop的前提是已經具備java和hadoop的環境 1、下載並解壓 2、修改配置檔案 $ cd $SQOOP_HOME/conf $ mv sqoop-env-template.sh sqoop-env.sh 開啟sqoop-env.sh並編輯下面幾

大資料學習入門看什麼書？大資料新手怎麼入門？

大資料意味著我們不能用隨機分析方法（抽樣調查）作為捷徑，而是用所有的資料進行分析和處理。這句話至少傳達了兩種資訊：大資料就是海量資料，大資料處理沒有捷徑，這就對分析和處理技術提出了更高的要求。事實上，簡單來說，大資料是分析和挖掘非抽樣資料的全部量，以輔助決策。大資料的

大資料學習——Sqoop入門使用

Sqoop

概述

Sqoop1與Sqoop2

Sqoop1架構

Sqoop2架構

Sqoop1與Sqoop2比較

安裝

配置環境變數

配置檔案

測試

使用示例

使用說明

測試連線

顯示錶

從關係資料庫導HDFS

使用 sql 語句

direct

指定檔案輸出格式

從HDFS導到關係資料庫(未驗證)

其它引數：

相關推薦