CDH中oozie 定時排程sqoop job

阿新 • • 發佈：2019-01-16

在資料開發中，由於資料量非常的大，有時候需要將關係型資料庫（Oracle/Postgresql/Mysql等）中的表匯入到hdfs中進行分散式儲存。本文就oozie定時呼叫sqoop job從oracle庫中增量匯入資料至hive表具體操作記錄一下：

首先，準備工作是在HDFS上建立oozie job需要的workflow.xml,hive-site.xml,coordinator.xml和lib資料夾，比如我的是在/user/oozie/workflow/sqoop2hive下面建立的

Lib檔案下，存放的是我們的連線關係型資料庫的驅動：mysql-connector-java.jar,ojdbc6.jar

workflow.xml是配置的工作流，如下：

<workflow-app xmlns="uri:oozie:workflow:0.2" name="sqoop-to-hive">
    <start to="sqoop2hive"/>
    <action name="sqoop2hive">
        <sqoop xmlns="uri:oozie:sqoop-action:0.2">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <configuration>
                <property>
                    <name>sqoop.metastore.client.record.password</name>
                    <value>true</value>
                </property>

                <property>
                    <name>hive.metastore.local</name>
                    <value>true</value>
                </property>
                <property>
                  <name>hive.metastore.uris</name>
                  <value>thrift://cloud171:9083 
</value> 
                </property>
                <property>
                  <name>javax.jdo.option.ConnectionURL</name>
                  <value>jdbc:oracle://188.188.2.175:1521/orcl?createDatabaseIfNotExist=true</value>
                </property>
                <property>
                  <name>javax.jdo.option.ConnectionDriverName</name>
                  <value>com.mysql.jdbc.Driver</value>
                </property>
                <property>
                  <name>javax.jdo.option.ConnectionUserName</name>
                  <value>hive</value>
                </property>
                <property>
                  <name>javax.jdo.option.ConnectionPassword</name>
                  <value>hive</value>
                </property>
                <property>
                  <name>hive.metastore.warehouse.dir</name>
                  <value>/user/hive/warehouse</value>
                </property>
            </configuration>

            <command>job --meta-connect jdbc:hsqldb:hsql://cloud171 
:16000/sqoop --exec sqoop2hive_job</command>
        </sqoop>
        <ok to="end"/>
        <error to="fail"/>
    </action>
    <kill name="fail">
        <message>Sqoop failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
    </kill>
    <end name="end"/>
</workflow-app>

把hive-site.xml也放進來即可，這裡不再細說

下面是把定時排程的coordinator.xml檔案配置如下：這裡是配置10分鐘呼叫一次sqoop job

<coordinator-app name="sqoop2hive-coord" frequency="${coord:minutes(10)}" start="${start}" end="${end}" timezone="UTC" xmlns="uri:oozie:coordinator:0.2">
    <action>
        <workflow>
            <app-path>${workflowAppUri}</app-path>
            <configuration>
                <property>
                    <name>jobTracker</name>
                    <value>${jobTracker}</value>
                </property>
                <property>
                    <name>nameNode</name>
                    <value>${nameNode}</value>
                </property>
            </configuration>
        </workflow>
    </action>
</coordinator-app>

下面是job.properties,具體配置如下：這個job.properties是放在本地的，不是hdfs上

nameNode=hdfs://cloud171:8020
jobTracker=cloud171:8032
oozie.libpath=${nameNode}/user/oozie/share/lib/lib_20170401085707/sqoop  #根據你的環境對應修改
oozie.use.system.libpath=true
start=2017-10-10T07:30Z
end=2017-11-06T08:00Z
oozie.coord.application.path=${nameNode}/user/oozie/workflow/sqoop2hive  #放上面三個檔案的路徑
workflowAppUri=${nameNode}/user/oozie/workflow/sqoop2hive   #同上

注意1：其次需要啟動sqoop metastore,否則會報錯：ERROR tool.JobTool: I/O error performing job operation: java.io.IOException: Exception creating SQL connection

sqoop metastore

注意2：關於sqoop job執行的時候，需要輸入資料庫的密碼，需要在sqoop-site.xml中設定sqoop.metastore.client.record.password為true，取消註釋即可

下面再說一下sqoop job 的命令：

sqoop job \
--meta-connect jdbc:hsqldb:hsql://cloud171:16000/sqoop \  #sqoop 工作流和job是配置在HSQL裡的，預設埠是16000
--create sqoop2hive_job \
--（空格）import --connect jdbc:oracle:thin:@188.188.2.175:1521:orcl \
--username scott \
--password tiger  -m 1 \
--table EMP \
--hive-import --hive-table cust \
--incremental append --check-column EMPNO --last-value 0

上面的是一個數據庫增量更新，建立sqoop job ：sqoop2hive_job
sqoop job的刪除：

sqoop job --meta-connect jdbc:hsqldb:hsql://cloud171:16000/sqoop --delete job名稱

下面呢就是呼叫oozie了：

oozie job -oozie http://cloud171:11000/oozie -config /opt/cloudera/parcels/CDH-5.10.0-1.cdh5.10.0.p0.41/lib/sqoop/job.properties（本地job.properties的路徑） -run

接下來會產生一個編號，在oozie的web UI裡面可以看到。這裡是直接的操作流程，有些粗糙,下面再補充一下sqoop job的部分

=========================================================================

sqoop支援兩種增量匯入模式，
一種是 append，即通過指定一個遞增的列，比如：
--incremental append --check-column num_iid --last-value 0

varchar型別的check欄位也可以通過這種方式增量匯入（ID為varchar型別的遞增數字）：

--incremental append --check-column ID --last-value 8
另種是可以根據時間戳，比如：
--incremental lastmodified --check-column created --last-value '2012-02-01 11:0:00'
就是隻匯入created 比'2012-02-01 11:0:00'更大的資料。

CDH中oozie 定時排程sqoop job

CDH中oozie 定時排程sqoop job

oozie 定時排程時區設定

oozie定時排程的配置說明第一篇

Oracle中的定時執行任務job

Oracle PLSQLl的多執行緒程式設計架構儲存過程中使用多執行緒定時任務作業排程計劃 JOB SCHEDULE

oozie中排程sqoop

ssm中配置Quartz定時排程任務

【解決】Oozie在排程Hive程式時，出現Job狀態一直是ACCEPTED！

分散式定時任務Elastic-Job框架在SpringBoot工程中的應用實踐（二）

Spring使用Quartz定時排程Job無法Autowired注入Service的解決方案

spring boot 中配置定時任務job

oozie排程sqoop踩坑之路（hue配置）

Oracle定時排程(schedule和job結合)

Spring Boot 中配置定時任務，實現多線程操作

Linux中的定時和延時任務

Springboot中做定時任務和 Springboot API 分頁

node中的定時任務

Oracle中的定時任務

ubuntu中執行定時任務crontab

thinkjs2.2中的定時任務

CDH中oozie 定時排程sqoop job

相關推薦