scoop匯入資料從mysql到hive

阿新 • • 發佈：2019-01-12

mysql裡的表格式：

desc track_log18;CREATE TABLE `track_log18` (
`id` varchar(1000) DEFAULT NULL,
`url` varchar(5000) DEFAULT NULL,
`referer` varchar(5000) DEFAULT NULL,
`keyword` varchar(5000) DEFAULT NULL,
`type` varchar(1000) DEFAULT NULL,
`guid` varchar(1000) DEFAULT NULL,
`pageId` varchar(1000) DEFAULT NULL,
`moduleId` varchar(1000) DEFAULT NULL,
`linkId` varchar(1000) DEFAULT NULL,
`attachedInfo` varchar(1000) DEFAULT NULL,
`sessionId` varchar(1000) DEFAULT NULL,
`trackerU` varchar(1000) DEFAULT NULL,
`trackerType` varchar(1000) DEFAULT NULL,
`ip` varchar(1000) DEFAULT NULL,
`trackerSrc` varchar(1000) DEFAULT NULL,
`cookie` varchar(5000) DEFAULT NULL,
`orderCode` varchar(1000) DEFAULT NULL,
`trackTime` varchar(1000) DEFAULT NULL,
`endUserId` varchar(1000) DEFAULT NULL,
`firstLink` varchar(1000) DEFAULT NULL,
`sessionViewNo` varchar(5000) DEFAULT NULL,
`productId` varchar(1000) DEFAULT NULL,
`curMerchantId` varchar(1000) DEFAULT NULL,
`provinceId` varchar(1000) DEFAULT NULL,
`cityId` varchar(1000) DEFAULT NULL,
`ds` varchar(20) DEFAULT NULL, //ds 在hive表裡是分割槽欄位
`hour` varchar(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1; //hour在hive表裡是分割槽欄位

1 直接匯入到hdfs的檔案系統

表格式如下：

desc track_log;

id string
url string
。。。
cityid string
ds string
hour string

# Partition Information
# col_name data_type comment

ds string
hour string

jimmy>sqoop import --connect jdbc:mysql://localhost:3306/track_log --username root --password Nokia123

--table track_log18 //mysql的源表

--target-dir /user/hive/warehouse/track_log/ds=20150827/hour=18 //直接到hdfs,

--split-by id //根據id分段生成多個檔案

結果自動生成多個檔案：

-rw-r--r-- 1 jimmy supergroup 0 2016-12-18 15:17 /user/hive/warehouse/track_log/ds=20150827/hour=18/_SUCCESS
-rw-r--r-- 1 jimmy supergroup 0 2016-12-18 15:17 /user/hive/warehouse/track_log/ds=20150827/hour=18/part-m-00000
-rw-r--r-- 1 jimmy supergroup 13711664 2016-12-18 15:17 /user/hive/warehouse/track_log/ds=20150827/hour=18/part-m-00001
-rw-r--r-- 1 jimmy supergroup 2712180 2016-12-18 15:17 /user/hive/warehouse/track_log/ds=20150827/hour=18/part-m-00002
-rw-r--r-- 1 jimmy supergroup 2655849 2016-12-18 15:17 /user/hive/warehouse/track_log/ds=20150827/hour=18/part-m-00003
-rw-r--r-- 1 jimmy supergroup 2576800 2016-12-18 15:17 /user/hive/warehouse/track_log/ds=20150827/hour=18/part-m-00004
-rw-r--r-- 1 jimmy supergroup 1391853 2016-12-18 15:17 /user/hive/warehouse/track_log/ds=20150827/hour=18/part-m-00005

注意：

A）匯入後還要在hive裡指定分割槽地址：

hive》alter table track_log add partition(ds='20150828' ,hour='17') location '/user/hive/warehouse/track_log/ds=20150827/hour=18';

B）hive查詢時候有問題，比如select id from track_log時候返回多列

2.匯入到hive表裡

這裡表track_log19從track_log拷貝而來，就沒有分割槽了

hive>create table track_log19 as select * from track_log;

表格式如下：

desc track_log19;
OK
id string
...
ds string //ds仍然是欄位，但不是分割槽
hour string //hour仍然是欄位，但不是分割槽

jimmy>sqoop import --connect jdbc:mysql://localhost:3306/track_log --username root --password Nokia123 - -table track_log19 //源表

--hive-import

--hive-table track_log19 //目的表

--hive-overwrite

-m 1 //（最後生成一個檔案）

結果（直接到warehouse下目錄生成檔案track_log19）

drwxrwxrwx - jimmy supergroup 0 2016-12-18 15:17 /user/hive/warehouse/track_log
drwxrwxrwx - jimmy supergroup 0 2016-12-18 15:35 /user/hive/warehouse/track_log19

scoop匯入資料從mysql到hive

scoop匯入資料從mysql到hive

Oracle 使用SQL Loader 從外部匯入資料

使用Sqoop將資料從RDBMS(關係型資料庫) 到hdfs和Hive的匯入匯出

利用sqoop指定列指定條件的方式將資料從mysql中增量匯入hive表中

利用sqoop把資料從SqlServer匯入到Hadoop

學習筆記:從0開始學習大資料-28. solr儲存資料在hdfs並從mysql匯入資料

sqoop使用，從hive向oracle匯入資料

hive 從Excel中匯入資料

用java實現從txt文字檔案批量匯入資料至資料庫

【學習OpenCV】通過DLL實現影象資料從.dat匯入Mat

一個小例子集合xlrd，matplotlib，numpy，scipy使用方法（從Excel匯入資料）

使用sqoop將資料從hdfs中匯入mysql時，卡在INFO mapreduce.Job: map 100% reduce 0%的解決辦法

SQLite3建立資料庫的方法和 SQLite從Excel檔案中匯入資料及 python/qpython sqlite 中文亂碼

SQLite從Excel檔案中匯入資料

solr5.5之從資料庫中匯入資料並建立索引

使用 SqlBulkCopy 批量從execl中匯入資料

Solr從資料庫匯入資料

ORACLE 批量插入主鍵為自增序列有幾個欄位資料從其他表匯入的有幾個是固定的

向HBase中匯入資料3：使用MapReduce從HDFS或本地檔案中讀取資料並寫入HBase（增加使用Reduce批量插入）

利用poi從excel中匯入資料到資料庫

scoop匯入資料從mysql到hive

相關推薦