kettle組件-輸入
1:文本文件輸入
包含六個頁簽:文件,內容,錯誤處理,過濾,字段,其他輸出字段
文件:用於選中文件或目錄,可以使用正則表達式
內容:文件類型---保持默認CSV即可
分隔符----指文本文件每個字段間的分區標誌,不可見分隔符的輸入方法:$[01]
文本限定符----指當文本字段中有分隔符作為字段內容一部分時就需要文本限定符
逃逸符-----針對文本限定符而言,當文本字段中出現文本限定符了,需要使用逃逸符
頭部-------規定字段行
過濾:將包含有輸入字符串的一行去除預覽,若過濾字符串與過濾器位置不匹配,將不能去除預覽
字段:當點擊自動獲取時,會將內容中指定的頭部以字段形式展出。
2:生成記錄
用於自定義字段,類型,(若為時間類型還可設置格式),(若為數字類型還可設置長度和精度),值。
限制----用於限制展示的行數,設置單行值後若限制為多行,則會重復輸出。
若設置為空串,則值即使定義了也不會預覽到。
若字段定義為date類型,則格式必須選擇。
3:生成隨機數
手動填寫字段
手動選擇類型:可以生成隨機數字,隨機整數,隨機字符串,UUID,UUID4,還有兩種不認識的類型。
4:自定義常量數據
自定義常量數據要與生成記錄區分開,生成記錄只有一個頁簽,字段的定義和值在同一個頁簽,而自定義常量有兩個頁簽,分別是元數據和數據,元數據用於設置字段的信息,若字段定義為date類型,則格式必須選擇,而數據用於為定義的字段填充數據,用法類似於數據庫中的建表並插入數據,此用法相比於生成記錄要靈活很多。在元數據中定義的字段,會在數據中自動生成供填充數據。
5:獲取表名
用於獲取所連接數據中的所有表名,若勾選了包含數據庫名稱,則或將連接IP地址下的所有數據庫名也輸出,也可勾選存過,視圖,還有,可以包含模式(具體啥意思,待後續再研究)。
輸出字段中包含:
名稱字段---設置中勾選內容的具體名稱;
類型字段----用於說明類型(是表,還是 數據庫);
表示是否為系統級字段----一般是系統級別;
sql語句字段----用於展示建表語句,試了一下,建庫語句為NULL
6:表輸入
連接數據庫,獲取sql語句,從而展示對應查詢中的數據。
允許簡易轉換:主要針對大字段的延遲轉換(延遲轉換性能更高,采用byte方式處理,否則就是string方式-----自動轉換,提高性能)
替換sql語句中的變量:若sql查詢語句中包含有變量,勾選此項將job工作中的變量替換為此變量,註意參數命名不要和系統參數命名沖突。
從步驟中插入數據是結合替換sql中的變量使用的,插入數據所代表的變量要和sql語句中的變量順序一致。
執行每一行:對一列進行多條件判斷,例如從步驟中插入數據中某一字段是sql查詢中的變量,但是該列有多行數據,此時一個sql查詢會逐一進行判斷,並將判斷的結果都返回。 類似於數據庫中的in查詢。
kettle組件-輸入