Hadoop資料傳輸工具：Sqoop

阿新 • • 發佈：2019-02-06

Apache Sqoop（SQL-to-Hadoop）專案旨在協助 RDBMS 與 Hadoop 之間進行高效的大資料交流。使用者可以在 Sqoop 的幫助下，輕鬆地把關係型資料庫的資料匯入到 Hadoop 與其相關的系統 (如HBase和Hive)中；同時也可以把資料從 Hadoop 系統裡抽取並匯出到關係型資料庫裡。除了這些主要的功能外，Sqoop 也提供了一些諸如檢視資料庫表等實用的小工具。理論上，Sqoop 支援任何一款支援 JDBC 規範的資料庫，如 DB2、MySQL 等。Sqoop 還能夠將 DB2 資料庫的資料匯入到 HDFS 上，並儲存為多種檔案型別。常見的有定界文字型別，Avro 二進位制型別以及 SequenceFiles 型別。在本文裡，統一用定界文字型別。

Sqoop中一大亮點就是可以通過hadoop的mapreduce把資料從關係型資料庫中匯入資料到HDFS。Sqoop架構非常簡單，其整合了Hive、Hbase和Oozie，通過map-reduce任務來傳輸資料，從而提供併發特性和容錯。

Sqoop在import時，需要制定split-by引數。Sqoop根據不同的split-by引數值來進行切分,然後將切分出來的區域分配到不同map中。每個map中再處理資料庫中獲取的一行一行的值，寫入到HDFS中。同時split-by根據不同的引數型別有不同的切分方法，如比較簡單的int型，Sqoop會取最大和最小split-by欄位值，然後根據傳入的num-mappers來確定劃分幾個區域。比如select max(split_by),min(split-by) from得到的max(split-by)和min(split-by)分別為1000和1，而num-mappers為2的話，則會分成兩個區域(1,500)和(501-100),同時也會分成2個sql給2個map去進行匯入操作，分別為select XXX from table where split-by>=1 and split-by<500和select XXX from table where split-by>=501 and split-by<=1000。最後每個map各自獲取各自SQL中的資料進行匯入工作。

Sqoop大概流程

讀取要匯入資料的表結構，生成執行類，預設是QueryResult，打成jar包，然後提交給Hadoop
設定好job，主要也就是設定好以上第六章中的各個引數
這裡就由Hadoop來執行MapReduce來執行Import命令

1) 首先要對資料進行切分，也就是DataSplit，DataDrivenDBInputFormat.getSplits(JobContext job)

2) 切分好範圍後，寫入範圍，以便讀取DataDrivenDBInputFormat.write(DataOutput output)，這裡是lowerBoundQuery and upperBoundQuery

3) 讀取以上2）寫入的範圍DataDrivenDBInputFormat.readFields(DataInput input)

4) 然後建立RecordReader從資料庫中讀取資料DataDrivenDBInputFormat.createRecordReader(InputSplit split,TaskAttemptContext context)

5) 建立MAP，MapTextImportMapper.setup(Context context)

6) RecordReader一行一行從關係型資料庫中讀取資料，設定好Map的Key和Value，交給MapDBRecordReader.nextKeyValue()

7) 執行MAP，mapTextImportMapper.map(LongWritable key, SqoopRecord val, Context context),最後生成的Key是行資料，由QueryResult生成，Value是NullWritable.get()

Sqoop1和Sqoop 2架構的變遷

首先這兩個版本是完全不相容的，其具體的版本號區別為1.4.x為sqoop 1，1.99x為sqoop 2。sqoop1和sqoop2在架構和用法上已經完全不同。在架構上，sqoop1僅僅使用一個sqoop客戶端，sqoop2引入了sqoop server，對connector實現了集中的管理。其訪問方式也變得多樣化了，其可以通過REST API、JAVA API、WEB UI以及CLI控制檯方式進行訪問。另外，其在安全效能方面也有一定的改善，在sqoop1中我們經常用指令碼的方式將HDFS中的資料匯入到mysql中，或者反過來將mysql資料匯入到HDFS中，其中在腳本里邊都要顯示指定mysql資料庫的使用者名稱和密碼的，安全性做的不是太完善。在sqoop2中，如果是通過CLI方式訪問的話，會有一個互動過程介面，你輸入的密碼資訊不被看到，同時Sqoop2引入基於角色的安全機制。下圖是sqoop1和sqoop2簡單架構對比：

Sqoop1架構圖：

Sqoop2架構圖：

sqoop1優點：架構部署簡單
sqoop1缺點：命令列方式容易出錯，格式緊耦合，無法支援所有資料型別，安全機制不夠完善，例如密碼暴漏，安裝需要root許可權，connector必須符合JDBC模型
sqoop2優點：多種互動方式，命令列，web UI，rest API，conncetor集中化管理，所有的連結安裝在sqoop server上，完善許可權管理機制，connector規範化，僅僅負責資料的讀寫
sqoop2缺點：架構稍複雜，配置部署更繁瑣

參考連結：

Hadoop資料傳輸工具：Sqoop

Hadoop資料傳輸工具：Sqoop

Python 之資料驅動工具：DDT

AnyTrans for Android for Mac(安卓資料傳輸工具)

吳裕雄資料探勘與分析案例實戰（4）——python資料處理工具：Pandas

pingtunnel 0.4 釋出，udp 轉 icmp 的資料傳輸工具

AnyTrans for Android for Mac 破解版(安卓資料傳輸工具)

AnyTrans for Android Mac 6.4.1破解版—安卓資料傳輸工具

一個好用的大文件傳輸工具：支持選點續傳、錯誤重傳

RFID天線資料傳輸原理：負載調製

免費資料分析工具：secsoso

Hive和SparkSQL：基於 Hadoop 的資料倉庫工具

關係資料庫資料與hadoop資料進行轉換的工具 - Sqoop

Hadoop資料工具sqoop，匯入HDFS,HIVE,HBASE,匯出到oracle

Qt：基於TCP的多執行緒檔案傳輸工具

大資料（十五）：Hadoop資料壓縮與壓縮/解壓縮例項

大資料（二十五）：Sqoop的介紹和安裝

大資料（二十六）：Sqoop的import、export命令和命令指令碼

大資料架構師：如何從零基礎搭建大資料hadoop生態圈

Wyn Enterprise 核心功能：易用至極的自助式BI和資料分析工具

大資料調錯系列之hadoop在開發工具控制檯上打印不出日誌的解決方法

Hadoop資料傳輸工具：Sqoop

相關推薦