sqoop 從sqlserver2008 匯入資料到hadoop

阿新 • • 發佈：2022-04-29

　　今天終於開始上手匯入資料到hadoop了，哈哈，過程蠻崎嶇的，和官方文件的還不太一樣。

　　OK,let's go！試驗物件是我第一個名為ST_Statistics的一張表，我要把我表裡的資料匯入到hdfs、hive以及hbase當中，然後試驗才算完成。

　　1.匯入資料到hdfs

　　sqoop import  --connect 'jdbc:sqlserver://192.168.1.105:1433;username=sa;password=cenyuhai;database=SAMS' 
          --query "SELECT * FROM ST_Statistics WHERE BigReason='OfficeSoftwareFault' AND $CONDITIONS " 
              --split-by ResponseTime --target-dir /user/cenyuhai/sams

　　這裡面有幾個需要注意的點：

　　（1）--connect 後面的字元帶上了'',為毛？其實我也不知道，官方文件上可不是這麼說的，加上才可以跑。

　　（2）--split-by 後面跟的欄位必須是整形的，因為sqoop是靠這個欄位是給map執行緒分工的，不是整理它強轉的時候就會報錯的。

13/09/06 06:50:31 ERROR security.UserGroupInformation: PriviledgedActionException as:root cause:java.io.IOException: com.microsoft.sqlserver.jdbc.SQLServerException: 運算元資料型別 uniqueidentifier 對於 min 運算子無效。
13/09/06 06:50:31 ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: com.microsoft.sqlserver.jdbc.SQLServerException: 運算元資料型別 uniqueidentifier 對於 min 運算子無效。
    at org.apache.sqoop.mapreduce.db.DataDrivenDBInputFormat.getSplits(DataDrivenDBInputFormat.java:167)
    at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:1054)
    at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:1071)
    at org.apache.hadoop.mapred.JobClient.access$700(JobClient.java:179)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:983)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:936)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:396)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1232)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:936)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:550)
    at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:580)
    at org.apache.sqoop.mapreduce.ImportJobBase.doSubmitJob(ImportJobBase.java:187)
    at org.apache.sqoop.mapreduce.ImportJobBase.runJob(ImportJobBase.java:16

　（3）只要是語法不對的，它都會報下面這個錯，希望大家注意！

At minimum, you must specify --connect and --table
Arguments to mysqldump and other subprograms may be supplied
after a '--' on the command line.

　　2.增量匯入

　　sqoop支援兩種增量匯入到hive的模式，一種是 append，即通過指定一個遞增的列，比如： --incremental append --check-column id --last-value 0 另種是可以根據時間戳，比如：　　--incremental lastmodified --check-column time --last-value '2013-01-01 11:0:00' 　　就是隻匯入time比'2013-01-01 11:0:00'更大的資料。

　　好，我試驗的是第一種，我在插入了前面插入了差距的基礎上，再插入WorkNo是201309071後面的資料（我新加的）

sqoop import  --connect 'jdbc:sqlserver://192.168.1.105:1433;username=sa;password=cenyuhai;database=SAMS'  --table ST_Statistics 
  --where "BigReason='OfficeSoftwareFault'"   --split-by ResponseTime --target-dir /user/cenyuhai/sams 
  --incremental append  --check-column WorkNo  --last-value 201309071

　　執行成功，命令的提示當中會出現以下的提示，最後的值已經到201308081了。

13/09/06 22:26:15 INFO mapreduce.ImportJobBase: Retrieved 5 records.
13/09/06 22:26:15 INFO util.AppendUtils: Appending to directory sams
13/09/06 22:26:15 INFO util.AppendUtils: Using found partition 8
13/09/06 22:26:15 INFO tool.ImportTool: Incremental import complete! To run another incremental import of all data following this import, supply the following arguments:
13/09/06 22:26:15 INFO tool.ImportTool:  --incremental append
13/09/06 22:26:15 INFO tool.ImportTool:   --check-column WorkNo
13/09/06 22:26:15 INFO tool.ImportTool:   --last-value 201309081

　　3.匯入到hive

　　sqoop import  --connect 'jdbc:sqlserver://192.168.1.105:1433;username=sa;password=cenyuhai;database=SAMS' 
             --table ST_Statistics --where "BigReason='OfficeSoftwareFault'" --split-by ResponseTime --hive-import  --create-hive-table

　　不知道為什麼，執行hive的匯入語句時，就不能用--query了，老報上面的那個提到的那個錯誤，可能是RP不好，就只能改成這種表加上過濾條件的方式了。

　　然後用上面對hdfs的增量插入的方式對hive來操作也不成功，老是報前面提到的那個語法錯誤，真是讓人無語了，報錯都報得如此含蓄！

　　4.匯入到hbase

sqoop import  --connect 'jdbc:sqlserver://192.168.1.105:1433;username=sa;password=cenyuhai;database=SAMS' --table ST_Statistics --where "BigReason='OfficeSoftwareFault'" --split-by ResponseTime  --hbase-table ST_Statistics --hbase-create-table   --hbase-row-key WorkNo  --column-family cf

　　這條語句非常長，為毛？我也不知道，這種寫法我試了很多次了，用來分行的寫了很多次，一次都沒成功，最後誤打誤撞，弄成一行它就成功運行了！

　　5.把資料從hdfs導回到sqlserver，從hive匯出也和這個一樣，因為都是文字檔案，hbase的話，也是不支援直接的，需要通過和hive結合，才能匯出。　　

sqoop export  --connect 'jdbc:sqlserver://192.168.1.105:1433;username=sa;password=cenyuhai;database=SAMS' 
              --table ST_Statistics2 --export-dir /user/cenyuhai/sams

sqoop 從sqlserver2008 匯入資料到hadoop

　　今天終於開始上手匯入資料到hadoop了，哈哈，過程蠻崎嶇的，和官方文件的還不太一樣。

python實現從wind匯入資料

從wind匯入到的資料的格式是instance。如下載一系列資產在某一段時間的收盤價格。

解決sqoop從postgresql拉資料,報錯TCP/IP連線的問題

問題： sqoop從postgresql拉資料，在執行到mapreduce時報錯Connection refused. Check that the hostname and port are correct and that the postmaster is accepting TCP/IP connections

hive從mysql匯入資料量變多的解決方案

原始導數命令： bin/sqoop import -connect jdbc:mysql://192.168.169.128:3306/yubei -username root -password 123456 -table yl_city_mgr_evt_info --split-by rec_id -m 4 --fields-terminated-by \"\\t\" --l

Apache Sqoop 將mysql匯入到Hadoop HDFS

第 21 章 Apache Sqoop 目錄 21.1. 安裝 Sqoop 21.2. sqoop2-tool 21.2.1. verify 21.2.2. upgrade 21.3. sqoop2-shell

Sqoop從MySQL向Hive增量式匯入資料報錯：Exception in thread "main" java.lang.NoClassDefFoundError: org/json/JSONObject

1、問題描述：（1）問題示例： Step1:建立作業： [Hadoop@master TestDir]$ sqoop job \\> --create myjob_1 \\> -- import \\> --connect \"jdbc:mysql://master:3306/source?useSSL=false&user=Hiv

Hadoop Mapper 階段將資料直接從 HDFS 匯入 Hbase

資料來源格式如下： 20130512 1 -1 -1 13802 1 2013-05-12 07:26:22 20130512 1 -1 -1 13802 1 2013-05-12 11:18:24

Sqoop從關係型資料庫往HDFS上匯入及匯出檔案

將關係型資料庫(RDBMS)匯入到HDFS 關係型資料庫（RDBMS）匯入到Hive sqoop引數筆記沒有（pdf格式的）

MySQL LOAD DATA INFILE—批量從檔案（csv、txt）匯入資料

最近做的專案，有個需求(從Elastic Search取資料，業務運算後），每次要向MySQL插入1300萬資料左右。最初用MySQL的executemany()一次插入10000條資料，統計的時間如下：

sqoop 匯入從mysql匯入資料到hive報類找不到

執行報錯如下： 20/07/15 14:02:34 ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.

從 Neo4j 匯入 Nebula Graph 實踐見 SPark 資料匯入原理

本文主要講述如何使用資料匯入工具 Nebula Graph Exchange 將資料從 Neo4j 匯入到 Nebula Graph Database。在講述如何實操資料匯入之前，我們先來了解下 Nebula Graph 內部是如何實現這個匯入功能的。

xml檔案從本地匯入，並把XML檔案中的資料傳入另一頁面

剛剛寫了一個檔案匯入功能，中間遇到了很多問題，記錄一下首先是匯入頁面，把檔案放到form裡

2.2如何從CSV檔案中匯入資料

技術標籤：Python資料視覺化csvpython 2.2 如何從CSV檔案中匯入資料 1、CSV格式，顧名思義就是指逗號分隔的值（檔案中還包括一個檔案頭，也是用逗號分隔）2、從CSV檔案中匯入資料有一下5個步驟：

1.11-1.12 Sqoop匯入資料時兩種增量方式匯入及direct

一、增量資料的匯入 1、兩種方式 ## query 有一個唯一識別符號，通常這個表都有一個欄位，類似於插入時間createtime

大資料Hadoop之——資料同步工具Sqoop

目錄一、概述二、架構 1）資料匯入（RDBMS->Haoop） 2）資料匯出（Haoop->RDBMS）

python3實現從kafka獲取資料,並解析為json格式,寫入到mysql中

專案需求：將kafka解析來的日誌獲取到資料庫的變更記錄，按照訂單的級別和訂單明細級別寫入資料庫，一條訂單的所有資訊包括各種維度資訊均儲存在一條json中，寫入mysql5.7中。

使用用SQL語句從電腦匯入圖片到資料庫的方法

使用SQL語句從電腦匯入圖片到資料庫的方法，具體程式碼如下所示： --建立圖片表

利用SQL指令碼匯入資料到不同資料庫避免重複的3種方法

前言相信大家都有所體會，無論何種語言，一旦看見程式碼中有重複性的程式碼則想到封裝來複用，在SQL同樣如此，若我們沒有介面來維護而且需要經常進行的操作，我們會寫指令碼避免下次又得重新寫一遍，但是這其中就涉

oracle在匯入資料時報600錯誤的解決方法

前言前幾天匯入一個大容量dmp資料檔案，報一個600錯誤，諮詢網上的解決方法，按上面的處理一圈也沒有整好，最後諮詢組裡一個大神，出現此錯誤思路是，單個數據檔案大小最大為32G，分析資料庫後解決如下：

python 匯入資料及作圖的實現

我們經常需要匯入資料，按列提取 XY作圖方法一、 filename=\'/home/res/user/csluo/test.txt\'#將檔名賦值為變數

sqoop 從sqlserver2008 匯入資料到hadoop

相關推薦