kettle大數據量讀寫mysql性能優化
修改kettleDB連接設置
1. 增加批量寫的速度:
useServerPrepStmts=false
rewriteBatchedStatements=true
useCompression=true
2. 增加讀的速度:
useServerPrepStmts=true
cachePrepStmts=true
參數說明:
1)useCompression=true,壓縮數據傳輸,優化客戶端和MySQL服務器之間的通信性能。
2)rewriteBatchedStatements=true ,開啟批量寫功能
將會使大批量單條插入語句:
INSERT INTO t (c1,c2) VALUES (‘One‘,1);
INSERT INTO t (c1,c2) VALUES (‘Two‘,2);
INSERT INTO t (c1,c2) VALUES (‘Three‘,3);
改寫成真正的批量插入語句:
INSERT INTO t (c1,c2) VALUES (‘One‘,1),(‘Two‘,2),(‘Three‘,3);
3)useServerPrepStmts=false 關閉服務器端編譯,sql語句在客戶端編譯好再發送給服務器端,發送語句如上。
如果為true,sql會采用占位符方式發送到服務器端,在服務器端再組裝sql語句。
占位符方式:INSERT INTO t (c1,c2) VALUES (?,?),(?,?),(?,?);
此方式就會產生一個問題,當列數*提交記錄數>65535
時就會報錯:Prepared statement contains too many placeholders,
這是由於我把“提交記錄數量”設為10000,而要插入記錄的表字段有30個,所以要進行批量插入時需要30*10000=300000 > 65535 ,故而報錯。
解決方案:
方案1:把DB連接中的 rewriteBatchedStatements 給設置為false(或者去掉),不過這個操作會影響數據的插入速度。
方案2:更改表輸出的設計。確保30個輸出字段的和提交記錄數量的乘積不超過65535。比如把提交記錄數量由10000更改為450(30*2000=60000< 65535)
當然我們的目的是為了提高數據庫寫速度,所以當rewriteBatchedStatements =true時useServerPrepStmts=false必須配合使用。
mysql參數調優可以參考如下文檔
https://dev.mysql.com/doc/connectors/en/connector-j-reference-configuration-properties.html數據丟失問題:
性能提升後,遇到另外個問題,86萬數據丟失了130多條,kettle無報錯,各種mysql參數設置之後都無效果,耗時近一天,最終查到是重復數據導致。
估計是因為重復數據在mysql寫不進去導致該批次數據寫失敗,但是kettle無報錯這個就比較坑。
解決辦法就是:1)取消數據表主鍵或者唯一索引 ,當然這是治標不治本的做法。2)根本的做法就是排查重復數據,從源頭杜絕重復數據
參考文檔:
https://blog.csdn.net/smooth00/article/details/69389424?utm_source=itdadao&utm_medium=referral
http://www.jackieathome.net/archives/169.html
kettle大數據量讀寫mysql性能優化