RDBMS數據定時采集到HDFS
阿新 • • 發佈:2018-04-08
大數據 Sqoop HDFS RDBMS MySQL [toc]
RDBMS數據定時采集到HDFS
前言
其實並不難,就是使用sqoop定時從MySQL中導入到HDFS中,主要是sqoop命令的使用和Linux腳本的操作這些知識。
場景
在我們的場景中,需要每天將數據庫中新增的用戶數據采集到HDFS中,數據庫中有time字段,
用以標識該用戶信息錄入數據庫的時間,所以下面的數據導入操作也是依賴於這個字段。
數據準備
在MySQL數據庫中準備如下數據:
##構建sql的操作 create DATABASE IF NOT EXISTS db_log_statics; use db_log_statics; CREATE TABLE `t_user_info` ( `id` bigint(20) NOT NULL, `name` varchar(20) COLLATE utf8_bin DEFAULT NULL, `address` varchar(20) COLLATE utf8_bin DEFAULT NULL, `time` date DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin; insert into `t_user_info` (`id`, `name`, `address`, `time`) values(‘1‘,‘張三‘,‘北京朝陽‘,‘2018-04-05‘); insert into `t_user_info` (`id`, `name`, `address`, `time`) values(‘2‘,‘李四‘,‘河南洛陽‘,‘2018-04-05‘); insert into `t_user_info` (`id`, `name`, `address`, `time`) values(‘3‘,‘王五‘,‘廣東邵陽‘,‘2018-04-05‘); insert into `t_user_info` (`id`, `name`, `address`, `time`) values(‘4‘,‘趙六‘,‘山東德州‘,‘2018-04-07‘); insert into `t_user_info` (`id`, `name`, `address`, `time`) values(‘5‘,‘周七‘,‘山東青島‘,‘2018-04-07‘); insert into `t_user_info` (`id`, `name`, `address`, `time`) values(‘6‘,‘魏八‘,‘福建廈門‘,‘2018-04-07‘); insert into `t_user_info` (`id`, `name`, `address`, `time`) values(‘7‘,‘王二麻子‘,‘山西五臺山‘,‘2018-04-06‘); insert into `t_user_info` (`id`, `name`, `address`, `time`) values(‘8‘,‘王大錘‘,‘陜西榆林‘,‘2018-04-06‘); insert into `t_user_info` (`id`, `name`, `address`, `time`) values(‘9‘,‘燕小六‘,‘雲南大理‘,‘2018-04-06‘); insert into `t_user_info` (`id`, `name`, `address`, `time`) values(‘10‘,‘雷布斯‘,‘湖北仙桃‘,‘2018-04-06‘);
腳本編寫
exportUser2HDFS.sh
#!/bin/env bash # shell中引用外部文件的變量 source /home/uplooking/shells/db-mysql.conf # source 系統的環境變量 source ~/.bash_profile # 日期變量 today=`date +%Y-%m-%d` yesterday=`date -d"1 day ago" +%Y-%m-%d` /home/uplooking/app/sqoop/bin/sqoop import --connect jdbc:mysql://${stat_ipaddr}:${stat_port}/${stat_dbname} --username ${stat_uname} --password ${stat_upwd} --target-dir hdfs://ns1/input/t_user/${yesterday} --query "SELECT id, name, address, time FROM t_user_info WHERE time >=‘${yesterday}‘ AND time < ‘${today}‘ AND \$CONDITIONS" -m 1 --fields-terminated-by "," --split-by ","
db-mysql.conf
#統計庫數據庫ip地址
stat_ipaddr=192.168.43.116
#統計庫端口
stat_port=3306
#統計庫名稱
stat_dbname=db_log_statics
#統計庫用戶名
stat_uname=root
#統計庫密碼
stat_upwd=root
編寫定時任務
crontab -e
# 要求每天淩晨2點10分同步數據
10 2 * * * /bin/bash /home/uplooking/shells/exportUser2HDFS.sh >/dev/null 2>&1 &
需要註意的是,如果在Notepad++中遠程編輯shell腳本文件,在Linux中是無法執行的,原因為,此時在Linux中用vim查看文件格式:set ff,會發現為:fileformat=dos,而正常我們在Linux中編輯的文件應該為:fileformat=unix,所以解決方案為:set ff=unix
RDBMS數據定時采集到HDFS