關於批量插入資料之我見（100萬級別的資料，mysql）

阿新 • • 發佈：2019-01-22

因前段時間去面試，問到如何高效向資料庫插入10萬條記錄，之前沒處理過類似問題，也沒看過相關資料，結果沒答上來，今天就查了些資料，總結出三種方法：

測試資料庫為mysql!!!

方法一:

publicstaticvoid insert() {
// 開時時間
Long begin = new Date().getTime();
// sql字首
String prefix = "INSERT INTO tb_big_data (count, create_time, random) VALUES ";
try

{
// 儲存sql字尾
StringBuffer suffix = new StringBuffer();
// 設定事務為非自動提交
conn.setAutoCommit(false);
// Statement st = conn.createStatement();
// 比起st，pst會更好些
PreparedStatement pst = conn.prepareStatement("");
// 外層迴圈，總提交事務次數
for (int i = 1; i <= 100; i++) {
// 第次提交步長
for (int j = 1; j <= 10000; j++) {
// 構建sql字尾
suffix.append("(" + j * i + ", SYSDATE(), " + i * j
* Math.random() + "),");
}
// 構建完整sql
String sql = prefix + suffix.substring(0, suffix.length() - 1);
// 新增執行sql
pst.addBatch(sql);
// 執行操作
pst.executeBatch();
// 提交事務
conn.commit();
// 清空上一次新增的資料
suffix = new StringBuffer();
}
// 頭等連線
pst.close();
conn.close();
} catch (SQLException e) {
e.printStackTrace();
}
// 結束時間
Long end = new Date().getTime();
// 耗時
System.out.println("cast : " + (end - begin) / 1000 + " s");
}

輸出時間：cast : 23 s

該方法目前測試是效率最高的方法!

方法二：

publicstaticvoid insertRelease() {
Long begin = new Date().getTime();
String sql = "INSERT INTO tb_big_data (count, create_time, random) VALUES (?, SYSDATE(), ?)";
try {
conn.setAutoCommit(false);
PreparedStatement pst = conn.prepareStatement(sql);
for (int i = 1; i <= 100; i++) {
for (int k = 1; k <= 10000; k++) {
pst.setLong(1, k * i);
pst.setLong(2, k * i);
pst.addBatch();
}
pst.executeBatch();
conn.commit();
}
pst.close();
conn.close();
} catch (SQLException e) {
e.printStackTrace();
}
Long end = new Date().getTime();
System.out.println("cast : " + (end - begin) / 1000 + " s");
}

注：註釋就沒有了，和上面類同，下面會有分析！

控制檯輸出：cast : 111 s

執行時間是上面方法的5倍！

方法三：

publicstaticvoid insertBigData(SpringBatchHandler sbh) {
Long begin = new Date().getTime();
JdbcTemplate jdbcTemplate = sbh.getJdbcTemplate();
finalint count = 10000;
String sql = "INSERT INTO tb_big_data (count, create_time, random) VALUES (?, SYSDATE(), ?)";
jdbcTemplate.batchUpdate(sql, new BatchPreparedStatementSetter() {
// 為prepared statement設定引數。這個方法將在整個過程中被呼叫的次數
publicvoid setValues(PreparedStatement pst, int i)
throws SQLException {
pst.setLong(1, i);
pst.setInt(2, i);
}
// 返回更新的結果集條數
publicint getBatchSize() {
return count;
}
});
Long end = new Date().getTime();
System.out.println("cast : " + (end - begin) / 1000 + " s");
}

該方法採用的是spring batchUpdate執行，因效率問題，資料量只有1萬條！

執行時間：cast : 387 s

總結：方法一和方法二很類同，唯一不同的是方法一採用的是“insert into tb (...) values(...),(...)...;”的方式執行插入操作，

方法二則是“insert into tb (...) values (...);insert into tb (...) values (...);...”的方式，要不是測試，我也不知道兩者差別是如此之大！

當然，這個只是目前的測試，具體執行時間和步長也有很大關係！如過把步長改為100，可能方法就要幾分鐘了吧，這個可以自己測試哈。。。

方法三網上很推崇，不過，效率大家也都看到了，1萬條記錄，耗時6分鐘，可見其效率並不理想！而且方法三需要配置spring applicationContext環境才能應用！

不過，方法三在ssh/spring-mvc中可用性還是很高的！

剛才開始研究大資料方面的問題，以上也只是真實測試的結果，並不一定就是事實，有好的建議，大家請指正，謝謝！

相互學習，才能進步更快！

原始碼：

關於批量插入資料之我見（100萬級別的資料，mysql）

因前段時間去面試，問到如何高效向資料庫插入10萬條記錄，之前沒處理過類似問題，也沒看過相關資料，結果沒答上來，今天就查了些資料，總結出三種方法：測試資料庫為mysql!!! 方法一: publicstaticvoid insert() {

關於批量插入資料（100萬級別的資料，mysql）

測試資料庫為mysql!!! 方法一: public static void insert() { // 開時時間 Long begin = new Date().getTime(); // sql字首 String pre

MySql 100萬級別資料中隨機獲取一條或多條記錄之RAND()優化

處理業務中，有這樣的需求，例如：有100W甚至更多的使用者，此時我們要隨機一條男性或者女性使用者出來做資料操作。基於這個需求，我們做一下實驗。基礎準備準備一張使用者表，結構如下 CREATE TABLE `user` (

Django 使用ORM將資料批量插入資料庫之bulk_create()

在Django中需要向資料庫中插入多條資料（list）。使用如下方法，每次save()的時候都會訪問一次資料庫。導致效能問題 for i in resultlist: p = Account(name=i) p.save() 1 2 3 4

批量部署自動化之 - [pssh]（轉）

時間 provide 分發登錄並發 check ast 可選 git clone 並行執行命令工具簡介作為運維工程師來講，機器數量到一定級別的時候，批量運維和管理機器就是一件費神的事情，還好有很多可以批量並行執行命令的工具，比如 pssh , python fabr

Mysql批量插入返回Id錯亂（原因分析）

erro smd r文件 setvalue insert 需要名稱 conf nal 在項目中經常會有如下場景：往數據庫中批量插入一批數據後，需要知道哪些插入成功，哪些插入失敗了。這時候往往會有兩種思路，一個是在插入之前判斷相同的記錄是否存在，過濾掉重復的數據；另外一

Mybatis批量插入註解方式示例（oracle + mysql）

場景：匯入20萬條資料，for迴圈方式一條條插入巨慢（太low）。拼接長SQL的話，oracle根本無法支援（有SQL長度限制），經測試資料多於2000基本就不行了。故改用批量插入，在mapper中註解使用mybatis的foreach標籤寫。Mybatis框架會自動拼接生成批插的sql。

大資料之Spark（五）--- Spark的SQL模組，Spark的JDBC實現，SparkSQL整合MySQL，SparkSQL整合Hive和Beeline

一、Spqrk的SQL模組 ---------------------------------------------------------- 1.該模組能在Spack上執行Sql語句 2.可以處理廣泛的資料來源 3.DataFrame --- RDD --- tabl

大資料之Spark（四）--- Dependency依賴，啟動模式，shuffle，RDD持久化，變數傳遞，共享變數，分散式計算PI的值

一、Dependency:依賴:RDD分割槽之間的依存關係 --------------------------------------------------------- 1.NarrowDependency: 子RDD的每個分割槽依賴於父RDD的少量分割槽。 |

大資料之Spark（三）--- Spark核心API，Spark術語，Spark三級排程流程原始碼分析

一、Spark核心API ----------------------------------------------- [SparkContext] 連線到spark叢集,入口點. [HadoopRDD] extends RDD 讀取hadoop

大資料之Spark（二）--- RDD，RDD變換，RDD的Action，解決spark的資料傾斜問題，spark整合hadoop的HA

一、Spark叢集執行 ------------------------------------------------------- 1.local //本地模式 2.standalone //獨立模式 3.yarn //yarn模式

大資料之Spark（一）--- Spark簡介，模組，安裝，使用，一句話實現WorldCount，API，scala程式設計，提交作業到spark叢集，指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

大資料之scala（四） --- 模式匹配，變數宣告模式，樣例類，偏函式，泛型，型變，逆變，隱式轉換，隱式引數

一、模式匹配:當滿足case條件，就終止 ---------------------------------------------------------- 1.更好的switch var x = '9'; x match{ case

大資料之scala（三） --- 類的檢查、轉換、繼承，檔案，特質trait，操作符，apply，update，unapply，高階函式，柯里化，控制抽象，集合

一、類的檢查和轉換 -------------------------------------------------------- 1.類的檢查 isInstanceOf -- 包括子類 if( p.isInstanceOf[Employee]) {

大資料之scala（二） --- 對映，元組，簡單類，內部類，物件Object，Idea中安裝scala外掛，trait特質[介面]，包和包的匯入

一、對映<Map> ----------------------------------------------------- 1.建立一個不可變的對映Map<k,v> ==> Map(k -> v) scala> val map

大資料之scala（一） --- 安裝scala，簡單語法介紹，條件表示式，輸入和輸出，迴圈，函式，過程，lazy ，異常，陣列

一、安裝和執行Scala解釋程式 --------------------------------------------- 1.下載scala-2.11.7.msi 2.管理員執行--安裝 3.進入scala/bin,找到scala.bat,管理員執行，進入scala命

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

大資料之Spark（六）--- Spark Streaming介紹，DStream，Receiver，Streamin整合Kafka，Windows，容錯的實現

一、Spark Streaming介紹 ----------------------------------------------------------- 1.介紹是spark core的擴充套件，針對實時資料的實時流處理技術具有可擴充套件、高吞吐量、

大資料之Spark（八）--- Spark閉包處理，部署模式和叢集模式，SparkOnYarn模式，高可用，Spark整合Hive訪問hbase類載入等異常解決，使用spark下的thriftserv

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,function,dep Op

大資料之hbase（一） --- HBase介紹，特性，安裝部署，shell命令，client端與hbase的互動過程，程式設計API訪問hbase實現百萬寫入

一、HBase介紹 ---------------------------------------------- 1.基於hadoop的資料庫，具有分散式，可伸縮的大型資料儲存 2.用於對資料的隨機訪問，實時讀寫 3.巨大的表，十億行*百萬列

關於批量插入資料之我見（100萬級別的資料，mysql）

相關推薦