使用sqoop從mysql導入數據到hive

阿新 • • 發佈：2018-05-18

sbin asto prop 文章存儲 iat bin sleep AI

前言

這篇文章主要是用sqoop從mysql導入數據到hive時遇到的坑的總結。

環境：

系統：Centos 6.5
Hadoop：Apache，2.7.3
Mysql：5.1.73
JDK：1.8
Sqoop：1.4.7

Hadoop以偽分布式模式運行。

一、使用的導入命令

我主要是參考一篇文章去測試的，Sqoop: Import Data From MySQL to Hive。

參照裏面的方法，在mysql建了表，填充了數據，然後按照自己的情況輸入了命令：

sqoop import --connect jdbc:mysql://localhost:3306/test --username root -P --split-by id --columns id,name --table customer  --target-dir /user/cloudera/ingest/raw/customers --fields-terminated-by " 
," --hive-import --create-hive-table --hive-table sqoop_workspace.customers

然後開始了打地鼠之旅。

二、遇到的問題及解決

1. 用文本字段進行分區的問題

報錯信息:"Generating splits for a textual index column allowed only in case of "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" property passed as a parameter"。

主要問題是“--split-by id”這個參數指定的id是一個文本格式，所以需要在命令中加入選項"-Dorg.apache.sqoop.splitter.allow_text_splitter=true"，補齊命令：

sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" --connect jdbc:mysql://localhost:3306/test --username root -P --split-by id --columns id,name --table customer  --target-dir hdfs://harry.com:9000/user/cloudera/ingest/raw/customers --fields-terminated-by "," --hive-import --create-hive-table --hive-table sqoop_workspace.customers

2. Hadoop歷史服務器Hadoop JobHistory沒開啟的問題

報錯信息：“ERROR tool.ImportTool: Import failed: java.io.IOException: java.net.ConnectException: Call From harry.com/192.168.0.210 to 0.0.0.0:10020 failed on connection exception: …”。

主要原因是sqoop在運行完MapReduce任務之後需要用hadoop jobhistory記錄這些作業信息並存放在指定的HDFS目錄下，默認情況下是沒有啟動的，需要配置完後手工啟動服務。

解決方法：mapred-site.xml添加如下配置：

<property>
    <name>mapreduce.jobhistory.address</name>
    <value>0.0.0.0:10020</value>
</property>

<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>0.0.0.0:19888</value>
</property>

<property>
    <name>mapreduce.jobhistory.done-dir</name>
    <value>/history/done</value>
</property>

<property>
    <name>mapreduce.jobhistory.intermediate-done-dir</name>
    <value>/history/done_intermediate</value>
</property>

重啟hdfs和yarn:

stop-dfs.sh
stop-yarn.sh
start-dfs.sh
start-yarn.sh

啟動歷史服務器：

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

後面如果需要停止，可以用命令：

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh stop historyserver

然後重新執行命令。

3. 連接元數據存儲數據庫報錯

報錯信息：“Caused by: javax.jdo.JDOFatalDataStoreException: Unable to open a test connection to the given database. JDBC url…”。

主要是因為我用的hive元數據數據庫是默認的Derby，我在另外一個會話開了一個hive cli來訪問hive，而Derby的一個缺點就是當有多個用戶同時訪問hive的時候，會報錯。

解決：退出hive cli，重新運行

4. 沒有在hive創建數據庫

報錯信息：“ERROR ql.Driver: FAILED: SemanticException [Error 10072]: Database does not exist: sqoop_workspace…”，這個就很明顯了，直接在hive裏創建一個就是了。

5. 其他警告和報錯

其他報錯實際上沒有阻礙導入過程，譬如下面這個WARN：

“WARN hdfs.DFSClient: Caught exception java.lang.InterruptedException…”，實際上是hadoop自己的bug，具體是HDFS 9794的bug：

當關閉DFSStripedOutputStream的時候，如果在向data/parity塊刷回數據失敗的時候，streamer線程不會被關閉。同時在DFSOutputStream#closeImpl中也存在這個問題。DFSOutputStream#closeImpl總是會強制性地關閉線程，會引起InterruptedException。

這些報錯一般忽略就可以了。

三、參考

1. Sqoop Import: "-Dorg.apache.sqoop.splitter.allow_text_splitter=true"

2. Hadoop JobHistory

3. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep解決方法

4. WARN hdfs.DFSClient: Caught exception java.lang.InterruptedException

（完）

使用sqoop從mysql導入數據到hive

sbin asto prop 文章存儲 iat bin sleep AI 前言這篇文章主要是用sqoop從mysql導入數據到hive時遇到的坑的總結。環境：系統：Centos 6.5 Hadoop：Apache，2.7.3 Mysql：5.1.73

使用sqoop從mysql導入數據到hive

前言

一、使用的導入命令

二、遇到的問題及解決

1. 用文本字段進行分區的問題

2. Hadoop歷史服務器Hadoop JobHistory沒開啟的問題

3. 連接元數據存儲數據庫報錯

4. 沒有在hive創建數據庫

5. 其他警告和報錯

三、參考

使用sqoop從mysql導入數據到hive

sqoop從mysql導入hive的一些問題

mysql導入數據庫_僅僅用frm向mysql導入表結構

MYSQL導入數據：Table XXX doesn't exist的解決

Kettle從excel導入數據到sql server

mysql 導入數據是報錯：2006 - MySQL server has gone away

mysql 導入數據庫命令操作

python從mysql導出數據導excel

mysql導入數據中文亂碼_ubuntu

windows環境下使用MySQL導入數據亂碼報錯的解決辦法

mysql導入數據庫進程查詢命令

MySQL導入數據庫

mysql-導入數據庫亂碼問題

MySQL導入數據提示Lost connection to MySQL server

從Hive導入數據到ES

關於sqoop導入數據到hive數據庫當中，表中數據為空倒入hive當中的處理

mysql 復制表結構 / 從結果中導入數據到新表

第二百九十節，MySQL數據庫-MySQL命令行導出導入數據庫，數據庫備份還原

使用struct模塊從定寬數據文件導入數據

mysql導出導入數據

使用sqoop從mysql導入數據到hive

前言

一、使用的導入命令

二、遇到的問題及解決

1. 用文本字段進行分區的問題

2. Hadoop歷史服務器Hadoop JobHistory沒開啟的問題

3. 連接元數據存儲數據庫報錯

4. 沒有在hive創建數據庫

5. 其他警告和報錯

三、參考

相關推薦