大資料技術Talend輸出Mysql資料到HDFS
1. 配置talend和大資料叢集的連線
1) 修改Windows本地hosts檔案,新增以下內容
192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
2) 找到“元資料”下面HadoopCluster右鍵單擊,選擇 “create Hadoop cluster”
3) 本案例基於apache原生hadoop2.7.2版本大資料環境測試,這裡選擇Amazon EMR, 版本選擇EMR5.0.0(Apache2.7.2),剩下的按照自己的大資料
4) 填寫完配置資訊以後,點選下面的檢查服務,檢查服務過程中會下載額外的第三方依賴外掛,點選全部接受下載,直至Namenode進度條為100%全綠,說明hadoop叢集配置正確
5) Hadoop叢集連線成功之後,可以看到Hadoop Cluster下會生成一個myhadoop0.1的元件,然後右鍵點選myhadoop0.1選擇create HDFS
6) 在彈出的HDFS Connection中填寫名稱,目的,描述,然後點選下一步,填寫對應的配置資訊,直至點選check按鈕,出現成功連線的提示資訊
7) HDFS連線建立好後,右鍵點選myhadoop0.1選擇create Hive,在彈出的hive資料庫連線框裡依次填寫hive的配置資訊,如圖所示
8) 填寫完配置資訊以後,點選測試連線按鈕,直至顯示hive連線成功的提示,說明hive連結建立成功,注意在測試連線前,一定要先在伺服器上開啟hiveserver2的服務,否則會報錯。
2. MySQL中表的資料上傳到hdfs
1) 在demo資料夾下新建作業mysql_hdfs2
2) 配置mysql連線,我們既可以在使用元件時進行配置,也可以先提前在元資料中配置好各種資料庫連線,然後直接拖到工作區使用。配置步驟如下
在元資料中新建mysql 連線
填寫mysql連線資訊
如下圖,已經連線成功。
3) 開始拖拽元件,把mysql連線拖放到設計工作區,選擇元件 “tDBInput(MySQL)”
4) 點選工作區mysql的圖示,選擇 “元件”,表填寫MySQL中剛才寫入表valid_movie,查詢語句補充完整,“select * from valid_movie”,點選“Guess schema”
之後會出現這張表的欄位和型別。你可以修改欄位名/選擇保留的欄位等。
5) 在右側搜尋tLogRow,這個元件相當於輸出,可以顯示我們的資料
6) 左側找到剛剛新增的hdfs連線,拖放到設計工作區,在彈出的元件選擇框中選擇HDFSOutPut元件,然後設定hdfs 儲存檔案的位置,檔名稱,檔案型別(序列化或者文字檔案),動作(重寫/追加)
7) 把三個元件進行連線
8) 執行作業,valid_movie表內容列印在控制檯上
HDFS也有了表中的資料,表示mysql-hdfs 資料轉移成功。