1. 程式人生 > 其它 >大資料技術Talend輸出Mysql資料到HDFS

大資料技術Talend輸出Mysql資料到HDFS

1. 配置talend和大資料叢集的連線

1) 修改Windows本地hosts檔案,新增以下內容

192.168.1.100 hadoop100

192.168.1.101 hadoop101

192.168.1.102 hadoop102

192.168.1.103 hadoop103

192.168.1.104 hadoop104

2) 找到“元資料”下面HadoopCluster右鍵單擊,選擇 “create Hadoop cluster”

 

3) 本案例基於apache原生hadoop2.7.2版本大資料環境測試,這裡選擇Amazon EMR, 版本選擇EMR5.0.0(Apache2.7.2),剩下的按照自己的大資料

培訓叢集配置其他資訊。

 

4) 填寫完配置資訊以後,點選下面的檢查服務,檢查服務過程中會下載額外的第三方依賴外掛,點選全部接受下載,直至Namenode進度條為100%全綠,說明hadoop叢集配置正確

 

 

 

5) Hadoop叢集連線成功之後,可以看到Hadoop Cluster下會生成一個myhadoop0.1的元件,然後右鍵點選myhadoop0.1選擇create HDFS

 

6) 在彈出的HDFS Connection中填寫名稱,目的,描述,然後點選下一步,填寫對應的配置資訊,直至點選check按鈕,出現成功連線的提示資訊

 

 

 

7) HDFS連線建立好後,右鍵點選myhadoop0.1選擇create Hive,在彈出的hive資料庫連線框裡依次填寫hive的配置資訊,如圖所示

 

 

8) 填寫完配置資訊以後,點選測試連線按鈕,直至顯示hive連線成功的提示,說明hive連結建立成功,注意在測試連線前,一定要先在伺服器上開啟hiveserver2的服務,否則會報錯。

 

2. MySQL中表的資料上傳到hdfs

1) 在demo資料夾下新建作業mysql_hdfs2

 

2) 配置mysql連線,我們既可以在使用元件時進行配置,也可以先提前在元資料中配置好各種資料庫連線,然後直接拖到工作區使用。配置步驟如下

在元資料中新建mysql 連線

 

填寫mysql連線資訊

 

如下圖,已經連線成功。

 

3) 開始拖拽元件,把mysql連線拖放到設計工作區,選擇元件 “tDBInput(MySQL)”

 

4) 點選工作區mysql的圖示,選擇 “元件”,表填寫MySQL中剛才寫入表valid_movie,查詢語句補充完整,“select * from valid_movie”,點選“Guess schema”

 

之後會出現這張表的欄位和型別。你可以修改欄位名/選擇保留的欄位等。

 

5) 在右側搜尋tLogRow,這個元件相當於輸出,可以顯示我們的資料

 

6) 左側找到剛剛新增的hdfs連線,拖放到設計工作區,在彈出的元件選擇框中選擇HDFSOutPut元件,然後設定hdfs 儲存檔案的位置,檔名稱,檔案型別(序列化或者文字檔案),動作(重寫/追加)

 

 

7) 把三個元件進行連線

 

8) 執行作業,valid_movie表內容列印在控制檯上

 

HDFS也有了表中的資料,表示mysql-hdfs 資料轉移成功。