使用Sqoop實現RDS MySQL到Redshift的資料同步

阿新 • • 發佈：2019-01-13

希臘有一個著名的谷堆悖論。“如果１粒穀子落地不能形成谷堆，２粒穀子落地不能形成谷堆，３粒穀子落地也不能形成谷堆，依此類推，無論多少粒穀子落地都不能形成谷堆。但是，事實並非如此。”
這個悖論說的，就是告訴我們量變產生質變，需要一個明顯的分割線。如果說，量是一個量化的資料，質是一個結論的話。那麼，資料分析做的，就是要分析量，從而引向“定性”、”定質”。定量的瞭解歷史的規律（“質”），從而預測未來。
近幾年，大資料風靡全球，越來越多的企業利用MapReduce，Hive，Spark等計算框架和工具來為自身的業務提供幫助，在AWS上，我們也提供了諸多的服務，幫助使用者能夠快速地構建起適合自身需求的大資料分析架構，其中，Amazon Redshift是效能優異並且完全託管的PB級別資料倉庫服務，提供了標準SQL資料庫訪問介面，並且可以十分方便地與現有的主流商業智慧資料分析工具整合，構建企業級資料倉庫。

然而，大部分企業的核心資料都儲存在關係型資料庫中，如何能夠有效地將這部分存量資料以及後續的增量資料匯入Redshift中呢？本文介紹一種使用開源的Apache Sqoop工具，幫助我們輕鬆實現這一過程。

配置步驟:

第一步準備工作

1.1 修改MySQL中的表結構

為了能夠實現增量同步，需要在MySQL表中增加一列時間戳，該列能夠自動記錄行被插入更新的時間
為了能夠實現同步刪除操作，需要在MySQL表中增加一列刪除記號列，應用對資料庫的刪除通過標記該列完成，而不是通過傳統的delete語句，因為通常對於曾經存在過的資料，也有分析的意義

本例需要同步的表為country，orders，user，其中country表為Mycat中的全域性表，在兩臺RDS mysql1和mysql2中都有全部資訊，orders和user表為Mycat中的分片表，資訊分佈在RDS mysql1和mysql2中

mycat_sequence表是用於記錄其他表自增欄位資訊的功能表，無需同步到Redshift中分析

執行如下語句新增兩列

alter table country add ifdelete boolean NOT NULL default 0;
alter table country add lastmodified TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMEST AMP;

1.2 建立EMR叢集

注意勾選上Hive和Sqoop，同時目前AWS EMR最新的版本為5.4.0，其中對一些元件的版本進行了更新，不過Hive和Sqoop的版本與本文一致

注意選擇相應的VPC和子網，子網需要有internet的路由方便之後ssh登入

選擇登入的金鑰對，Master安全組使用預設的ElasticMapReduce-master，不用修改

啟動EMR集群后，修改Master節點的安全組，新增允許公網ssh訪問

在EMR介面獲取master節點ssh登入的資訊

1.3 建立Redshift資料倉庫

首先建立Redshift使用的安全組，放行所有源訪問5439埠的許可權

分別在cn-north-1a和cn-north-1b兩個可用區中建立兩個子網給Redshift使用，由於之後會通過公網連線Redshift，這兩個子網需要有到internet的路由

在Redshift中建立子網組，選上之前建立的兩個子網組

建立Redshift引數組

建立Redshift叢集例項

選擇之前建立的引數組，VPC，子網組和安全組，開啟公網訪問

獲取連線Redshift的JDBC驅動及連線的URL資訊

驅動如果無法下載，也可以從如下連線下載

1.4 建立並儲存access key和secret access key

之後從 S3 中同步資料到Redshift時需要提供access key和secret access key資訊，這邊測試時可以全部放開許可權

在IAM中增加一個使用者並賦予許可權

下載存有access key和secret access key的CSV檔案

1.5 建立S3的bucket桶

S3會作為Hive表的底層儲存

第二步建立Hive表

Hive表為RDS到Redshift資料同步的中間表，底層使用S3作為儲存，另外由於Hive的表名不能是user，這裡使用users

exit; 退出hive

第三步安裝MySQL JDBC驅動(可選)

下載安裝JDBC驅動,最新版的EMR不需要，如果在執行Sqoop的時候報找不到驅動時需要手動安裝

ssh登入EMR的master節點

tar xzvf mysql-connector-java-5.1.40.tar.gz

cp mysql-connector-java-5.1.40/ mysql-connector-java-5.1.40-bin.jar /usr/bin/sqoop/lib/

第四步修改java許可權，否則執行Sqoop job會有warning和error

vim /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.121-0.b13.29.amzn1.86_64/jre/lib/security/java.policy
在grant{}中新增如下語句

permission javax.management.MBeanTrustPermission “register”;

第五步配置Sqoop

5.1 建立Sqoop訪問資料庫的密碼，XXXXXX 為建立RDS mysql1和mysql2時賦予的賬號密碼

echo –n “XXXXXX” > /home/hadoop/sqoop.password

5.2 建立並執行Sqoop任務

其中由於country表是全域性表，所以這裡只是從mysql1的read replica讀副本中同步，而user和orders表由於是分片表，所以需要分別從mysql1和mysql2各自的讀副本中同步資料
需要注意修改如下指令中的URL為自己RDS讀副本的URL，同時，對於user和orders，兩條sqoop job是不同的，第一條job中通過hive-overwrite引數覆蓋上一次job執行後遺留在Hive表中的資料，第二條job是沒有hive-overwrite引數的，否則會把上一條job從mysql1中同步的資料錯誤地刪除

下面進行第一次同步，分別執行如下命令將RDS中的資料同步到Hive表中，第一次執行是全備，根據表中資料量，時間可能較長

sqoop job –exec mysql1_country

sqoop job –exec mysql1_user

sqoop job –exec mysql2_user

sqoop job –exec mysql1_orders

sqoop job –exec mysql2_orders

進入Hive，查看錶是否同步成功

第六步將Hive表中的資料同步到Redshift中

使用JDBC客戶端連線Redshift，這裡使用SQL Workbench
分別建立country,user,orders表及各自的中間表，同時將Hive存在S3中的資料同步到中間表中，其中aws_access_key_id和aws_secret_access_key為準備工作中在IAM下載的CSV中的值