關於datax的SqlServerReader 外掛文件讀取設定

阿新 • • 發佈：2020-07-31

SqlServerReader 外掛文件

1 快速介紹

SqlServerReader外掛實現了從SqlServer讀取資料。在底層實現上，SqlServerReader通過JDBC連線遠端SqlServer資料庫，並執行相應的sql語句將資料從SqlServer庫中SELECT出來。

2 實現原理

簡而言之，SqlServerReader通過JDBC聯結器連線到遠端的SqlServer資料庫，並根據使用者配置的資訊生成查詢SELECT SQL語句併發送到遠端SqlServer資料庫，並將該SQL執行返回結果使用DataX自定義的資料型別拼裝為抽象的資料集，並傳遞給下游Writer處理。

對於使用者配置Table、Column、Where的資訊，SqlServerReader將其拼接為SQL語句傳送到SqlServer資料庫；對於使用者配置querySql資訊，SqlServer直接將其傳送到SqlServer資料庫。

3 功能說明

3.1 配置樣例

配置一個從SqlServer資料庫同步抽取資料到本地的作業:

{
    "job": {
        "setting": {
            "speed": {
                 "byte": 1048576
            }
        },
        "content": [
            {
                "reader": {
                    "name": "sqlserverreader",
                    "parameter": {
                        // 資料庫連線使用者名稱
                        "username": "root",
                        // 資料庫連線密碼
                        "password": "root",
                        "column": [
                            "id"
                        ],
                        "splitPk": "db_id",
                        "connection": [
                            {
                                "table": [
                                    "table"
                                ],
                                "jdbcUrl": [
                                "jdbc:sqlserver://localhost:3433;DatabaseName=dbname"
                                ]
                            }
                        ]
                    }
                },
               "writer": {
                    "name": "streamwriter",
                    "parameter": {
                        "print": true,
                        "encoding": "UTF-8"
                    }
                }
            }
        ]
    }
}

配置一個自定義SQL的資料庫同步任務到本地內容的作業：

{
    "job": {
        "setting": {
            "speed": 1048576
        },
        "content": [
            {
                "reader": {
                    "name": "sqlserverreader",
                    "parameter": {
                        "username": "root",
                        "password": "root",
                        "where": "",
                        "connection": [
                            {
                                "querySql": [
                                    "select db_id,on_line_flag from db_info where db_id < 10;"
                                ],
                                "jdbcUrl": [
                                    "jdbc:sqlserver://bad_ip:3433;DatabaseName=dbname",
                                    "jdbc:sqlserver://127.0.0.1:bad_port;DatabaseName=dbname",
                                    "jdbc:sqlserver://127.0.0.1:3306;DatabaseName=dbname"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "streamwriter",
                    "parameter": {
                        "visible": false,
                        "encoding": "UTF-8"
                    }
                }
            }
        ]
    }
}

3.2 引數說明

jdbcUrl
- 描述：描述的是到對端資料庫的JDBC連線資訊，使用JSON的陣列描述，並支援一個庫填寫多個連線地址。之所以使用JSON陣列描述連線資訊，是因為阿里集團內部支援多個IP探測，如果配置了多個，SqlServerReader可以依次探測ip的可連線性，直到選擇一個合法的IP。如果全部連線失敗，SqlServerReader報錯。注意，jdbcUrl必須包含在connection配置單元中。對於阿里集團外部使用情況，JSON陣列填寫一個JDBC連線即可。
  
  jdbcUrl按照SqlServer官方規範，並可以填寫連線附件控制資訊。具體請參看SqlServer官方文件。
- 必選：是
- 預設值：無
username
- 描述：資料來源的使用者名稱
- 必選：是
- 預設值：無
password
- 描述：資料來源指定使用者名稱的密碼
- 必選：是
- 預設值：無
table
- 描述：所選取的需要同步的表。使用JSON的陣列描述，因此支援多張表同時抽取。當配置為多張表時，使用者自己需保證多張表是同一schema結構，SqlServerReader不予檢查表是否同一邏輯表。注意，table必須包含在connection配置單元中。
- 必選：是
- 預設值：無
column
- 描述：所配置的表中需要同步的列名集合，使用JSON的陣列描述欄位資訊。使用者使用*代表預設使用所有列配置，例如["*"]。
  
  支援列裁剪，即列可以挑選部分列進行匯出。
  
  支援列換序，即列可以不按照表schema資訊進行匯出。
  
  支援常量配置，使用者需要按照JSON格式: ["id", "[table]", "1", "'bazhen.csy'", "null", "COUNT(*)", "2.3" , "true"] id為普通列名，[table]為包含保留在的列名，1為整形數字常量，'bazhen.csy'為字串常量，null為空指標，to_char(a + 1)為表示式，2.3為浮點數，true為布林值。
  
  column必須使用者顯示指定同步的列集合，不允許為空！
- 必選：是
- 預設值：無
splitPk
- 描述：SqlServerReader進行資料抽取時，如果指定splitPk，表示使用者希望使用splitPk代表的欄位進行資料分片，DataX因此會啟動併發任務進行資料同步，這樣可以大大提供資料同步的效能。
  
  推薦splitPk使用者使用表主鍵，因為表主鍵通常情況下比較均勻，因此切分出來的分片也不容易出現數據熱點。
  
  目前splitPk僅支援整形型資料切分，不支援浮點、字串、日期等其他型別。如果使用者指定其他非支援型別，SqlServerReader將報錯！
  
  splitPk設定為空，底層將視作使用者不允許對單表進行切分，因此使用單通道進行抽取。
- 必選：否
- 預設值：無
where
- 描述：篩選條件，MysqlReader根據指定的column、table、where條件拼接SQL，並根據這個SQL進行資料抽取。在實際業務場景中，往往會選擇當天的資料進行同步，可以將where條件指定為gmt_create > $bizdate 。注意：不可以將where條件指定為limit 10，limit不是SQL的合法where子句。
```
where條件可以有效地進行業務增量同步。如果該值為空，代表同步全表所有的資訊。
```
- 必選：否
- 預設值：無
querySql
- 描述：在有些業務場景下，where這一配置項不足以描述所篩選的條件，使用者可以通過該配置型來自定義篩選SQL。當用戶配置了這一項之後，DataX系統就會忽略table，column這些配置型，直接使用這個配置項的內容對資料進行篩選，例如需要進行多表join後同步資料，使用select a,b from table_a join table_b on table_a.id = table_b.id
當用戶配置querySql時，SqlServerReader直接忽略table、column、where條件的配置。
- 必選：否
- 預設值：無
fetchSize
- 描述：該配置項定義了外掛和資料庫伺服器端每次批量資料獲取條數，該值決定了DataX和伺服器端的網路互動次數，能夠較大的提升資料抽取效能。
注意，該值過大(>2048)可能造成DataX程序OOM。。
- 必選：否
- 預設值：1024

3.3 型別轉換

目前SqlServerReader支援大部分SqlServer型別，但也存在部分個別型別沒有支援的情況，請注意檢查你的型別。

下面列出SqlServerReader針對SqlServer型別轉換列表:

DataX 內部型別	SqlServer 資料型別
Long	bigint, int, smallint, tinyint
Double	float, decimal, real, numeric
String	char,nchar,ntext,nvarchar,text,varchar,nvarchar(MAX),varchar(MAX)
Date	date, datetime, time
Boolean	bit
Bytes	binary,varbinary,varbinary(MAX),timestamp

請注意:

除上述羅列欄位型別外，其他型別均不支援。
timestamp型別作為二進位制型別。

4 效能報告

暫無

5 約束限制

5.1 主備同步資料恢復問題

主備同步問題指SqlServer使用主從災備，備庫從主庫不間斷通過binlog恢復資料。由於主備資料同步存在一定的時間差，特別在於某些特定情況，例如網路延遲等問題，導致備庫同步恢復的資料與主庫有較大差別，導致從備庫同步的資料不是一份當前時間的完整映象。

針對這個問題，我們提供了preSql功能，該功能待補充。

5.2 一致性約束

SqlServer在資料儲存劃分中屬於RDBMS系統，對外可以提供強一致性資料查詢介面。例如當一次同步任務啟動執行過程中，當該庫存在其他資料寫入方寫入資料時，SqlServerReader完全不會獲取到寫入更新資料，這是由於資料庫本身的快照特性決定的。關於資料庫快照特性，請參看MVCC Wikipedia

上述是在SqlServerReader單執行緒模型下資料同步一致性的特性，由於SqlServerReader可以根據使用者配置資訊使用了併發資料抽取，因此不能嚴格保證資料一致性：當SqlServerReader根據splitPk進行資料切分後，會先後啟動多個併發任務完成資料同步。由於多個併發任務相互之間不屬於同一個讀事務，同時多個併發任務存在時間間隔。因此這份資料並不是完整的、一致的資料快照資訊。

針對多執行緒的一致性快照需求，在技術上目前無法實現，只能從工程角度解決，工程化的方式存在取捨，我們提供幾個解決思路給使用者，使用者可以自行選擇：

使用單執行緒同步，即不再進行資料切片。缺點是速度比較慢，但是能夠很好保證一致性。
關閉其他資料寫入方，保證當前資料為靜態資料，例如，鎖表、關閉備庫同步等等。缺點是可能影響線上業務。

5.3 資料庫編碼問題

SqlServerReader底層使用JDBC進行資料抽取，JDBC天然適配各類編碼，並在底層進行了編碼轉換。因此SqlServerReader不需使用者指定編碼，可以自動識別編碼並轉碼。

5.4 增量資料同步

SqlServerReader使用JDBC SELECT語句完成資料抽取工作，因此可以使用SELECT...WHERE...進行增量資料抽取，方式有多種：

資料庫線上應用寫入資料庫時，填充modify欄位為更改時間戳，包括新增、更新、刪除(邏輯刪)。對於這類應用，SqlServerReader只需要WHERE條件跟上一同步階段時間戳即可。
對於新增流水型資料，SqlServerReader可以WHERE條件後跟上一階段最大自增ID即可。

對於業務上無欄位區分新增、修改資料情況，SqlServerReader也無法進行增量資料同步，只能同步全量資料。

5.5 Sql安全性

SqlServerReader提供querySql語句交給使用者自己實現SELECT抽取語句，SqlServerReader本身對querySql不做任何安全性校驗。這塊交由DataX使用者方自己保證。

關於datax的SqlServerReader 外掛文件讀取設定

SqlServerReader 外掛文件

1 快速介紹

2 實現原理

3 功能說明

3.1 配置樣例

3.2 引數說明

3.3 型別轉換

4 效能報告

5 約束限制

5.1 主備同步資料恢復問題

5.2 一致性約束

5.3 資料庫編碼問題

5.4 增量資料同步

5.5 Sql安全性

6 FAQ

關於datax的SqlServerReader 外掛文件讀取設定

properties文件讀取工具類

Jmeter中正則表示式使用以及csv文件讀取

python讀取word文件,插入mysql資料庫的示例程式碼

python 使用pdfminer3k 讀取PDF文件的例子

前端學習筆記一：HTML 特點基本結構 doctype文件型別宣告網頁編碼設定 html標籤屬性文字和段落標籤特殊符號

（二）標籤中的屬性、文件宣告、設定字符集

Java 設定、刪除、獲取Word文件背景（基於Spire.Cloud.SDK for Java）

PHP讀取遠端txt文件到陣列並實現遍歷

pytest文件55-plugins外掛開發

pytest文件56-外掛打包上傳到 pypi 庫

java讀取word文件的文字內容

java讀取word文件,提取標題和內容的例項

eclipse引入本地API文件設定步驟詳解

微信小程式設定影象邊框_如何在Google文件中的影象周圍設定邊框

幻燈片批量新增角標_如何在Google文件或幻燈片中設定上標或下標文字的格式

Python讀取word文件內容

pytest文件65-內建 request 讀取專案的根目錄 rootdir

C#開啟word進行操作，文字替換、書籤處插入圖片、讀取文件中的表格、修改表格資料

Python讀取編碼為gbk文件時候報錯

關於datax的SqlServerReader 外掛文件讀取設定

SqlServerReader 外掛文件

1 快速介紹

2 實現原理

3 功能說明

3.1 配置樣例

3.2 引數說明

3.3 型別轉換

4 效能報告

5 約束限制

5.1 主備同步資料恢復問題

5.2 一致性約束

5.3 資料庫編碼問題

5.4 增量資料同步

5.5 Sql安全性

6 FAQ

相關推薦