提升SQLite資料插入效率低、速度慢的方法

阿新 • • 發佈：2019-01-25

前言

SQLite資料庫由於其簡單、靈活、輕量、開源，已經被越來越多的被應用到中小型應用中。甚至有人說，SQLite完全可以用來取代c語言中的檔案讀寫操作。因此我最近編寫有關遙感資料處理的程式的時候，也將SQLite引入進來，以提高資料的結構化程度，並且提高大資料的處理能力（SQLite最高支援2PB大小的資料）。但是最開始，我發現，直接使用SQL語句的插入效率簡直低的令人髮指的。後來不斷查文件、查資料，才發現了一條快速的“資料插入”之路。本文就以插入資料為例，整合網上和資料書中的各種提高SQLite效率的方法，給出提高SQLite資料插入效率的完整方法。（大神們勿噴）

1 資料

我使用的電腦是Win7 64位系統，使用VC2010編譯，SQLIte版本為3.7.15.2 ，電腦CPU為二代i3處理器，記憶體6G。
實驗之前，先建立要插入資料的表:
create

table t1 (id integer , x integer , y integer， weight real)

2 慢速——最粗暴的方法

SQLite的API中直接執行SQL的函式是：

int sqlite3_exec( sqlite3*, constchar *sql, int (*callback)(void*,int,char**,char**), void *, char **errmsg)
直接使用INSERT語句的字串進行插入，程式部分程式碼（完整程式碼見後文），如下：

for(int i=0;i<nCount;++i)

{
    std::stringstream ssm;
    ssm<<"insert into t1 values("<<i<<","<<i*2<<","<<i/2<<","<<i*i<<")";
    sqlite3_exec(db,ssm.str().c_str(),0,0,0);
}
這個程式執行的太慢了，我已經沒時間等待了，估算了一下，基本上是 7.826 條/s

3 中速——顯式開啟事務

所謂”事務“就是指一組SQL命令，這些命令要麼一起執行，要麼都不被執行。在SQLite中，每呼叫一次sqlite3_exec()函式，就會隱式地開啟了一個事務，如果插入一條資料，就呼叫該函式一次，事務就會被反覆地開啟、關閉，會增大IO量。如果在插入資料前顯式開啟事務，插入後再一起提交，則會大大提高IO效率，進而加資料快插入速度。
開啟事務只需在上述程式碼的前後各加一句開啟與提交事務的命令即可：

sqlite3_exec(db,"begin;",0,0,0);
for(int i=0;i<nCount;++i)
{
    std::stringstream ssm;
    ssm<<"insert into t1 values("<<i<<","<<i*2<<","<<i/2<<","<<i*i<<")";
    sqlite3_exec(db,ssm.str().c_str(),0,0,0);
}
sqlite3_exec(db,"commit;",0,0,0);

顯式開啟事務後，這個程式執行起來明顯快很多，估算效率達到了34095條/s，較原始方法提升約5000倍。

4 高速——寫同步(synchronous)

我要使用一個遙感處理演算法處理10000*10000的影像，中間有一步需要插入100000000條資料到資料庫中，如果按照開啟事務後的速度34095條/s，則需要100000000÷34095 = 2932秒 = 48.9分，仍然不能夠接受，所以我接著找提升速度的方法。終於，在有關講解SQLite配置的資料中，看到了“寫同步”選項。

在SQLite中，資料庫配置的引數都由編譯指示（pragma）來實現的，而其中synchronous選項有三種可選狀態，分別是full、normal、off。這篇部落格以及官方文件裡面有詳細講到這三種引數的設定。簡要說來，full寫入速度最慢，但保證資料是安全的，不受斷電、系統崩潰等影響，而off可以加速資料庫的一些操作，但如果系統崩潰或斷電，則資料庫可能會損毀。

SQLite3中，該選項的預設值就是full，如果我們再插入資料前將其改為off，則會提高效率。如果僅僅將SQLite當做一種臨時資料庫的話，完全沒必要設定為full。在程式碼中，設定方法就是在開啟資料庫之後，直接插入以下語句：

sqlite3_exec(db,"PRAGMA synchronous = OFF; ",0,0,0);
此時，經過測試，插入速度已經變成了41851條/s，也就是說，插入100000000條資料，需要2389秒 = 39.8分。

5 極速——執行準備

雖然寫同步設為off後，速度又有小幅提升，但是仍然較慢。我又一次踏上了尋找提高SQLite插入效率方法的道路上。終於，我發現，SQLite執行SQL語句的時候，有兩種方式：一種是使用前文提到的函式sqlite3_exec()，該函式直接呼叫包含SQL語句的字串；另一種方法就是“執行準備”（類似於儲存過程）操作，即先將SQL語句編譯好，然後再一步一步（或一行一行）地執行。如果採用前者的話，就算開起了事務，SQLite仍然要對迴圈中每一句SQL語句進行“詞法分析”和“語法分析”，這對於同時插入大量資料的操作來說，簡直就是浪費時間。因此，要進一步提高插入效率的話，就應該使用後者。

“執行準備”主要分為三大步驟：

1.呼叫函式

int sqlite3_prepare_v2( sqlite3 *db,  constchar *zSql,  int nByte,  sqlite3_stmt **ppStmt,  constchar **pzTail);
並且宣告一個指向sqlite3_stmt物件的指標，該函式對引數化的SQL語句zSql進行編譯，將編譯後的狀態存入ppStmt中。
2.呼叫函式 sqlite3_step() ，這個函式就是執行一步（本例中就是插入一行），如果函式返回的是SQLite_ROW則說明仍在繼續執行，否則則說明已經執行完所有操作；

3.呼叫函式 sqlite3_finalize()，關閉語句。

關於執行準備的API的具體語法，詳見官方文件。本文中執行準備的c++程式碼如下：

sqlite3_exec(db,"begin;",0,0,0);
    sqlite3_stmt *stmt;
    constchar* sql = "insert into t1 values(?,?,?,?)";
    sqlite3_prepare_v2(db,sql,strlen(sql),&stmt,0);
    for(int i=0;i<nCount;++i)
    {
        sqlite3_reset(stmt);
        sqlite3_bind_int(stmt,1,i);
        sqlite3_bind_int(stmt,1,i*2);
        sqlite3_bind_int(stmt,1,i/2);
        sqlite3_bind_double(stmt,1,i*i);
    }
    sqlite3_finalize(stmt);
    sqlite3_exec(db,"commit;",0,0,0);
此時測試資料插入效率為：265816條/s，也就是說，插入100000000條資料，需要376秒 = 6.27分。這個速度已經很滿意了。

5 總結

綜上所述啊，SQLite插入資料效率最快的方式就是：事務+關閉寫同步+執行準備（儲存過程），如果對資料庫安全性有要求的話，就開啟寫同步。

參考資料：

附最終完整程式碼:

#include <iostream>
#include <string>
#include <sstream>
#include <time.h>
#include "sqlite3.h"
constint nCount = 500000;
int main (int argc,char** argv)
{
    sqlite3* db;
    sqlite3_open("testdb.db" ,&db);
    sqlite3_exec(db,"PRAGMA synchronous = OFF; ",0,0,0);
    sqlite3_exec(db,"drop table if exists t1",0,0,0);
    sqlite3_exec(db,"create table t1(id integer,x integer,y integer ,weight real)",0,0,0);
    clock_t t1 = clock();
    sqlite3_exec(db,"begin;",0,0,0);
    sqlite3_stmt *stmt;
    constchar* sql = "insert into t1 values(?,?,?,?)";
    sqlite3_prepare_v2(db,sql,strlen(sql),&stmt,0);
    for(int i=0;i<nCount;++i)
    {
        // std::stringstream ssm;
        // ssm<<"insert into t1 values("<<i<<","<<i*2<<","<<i/2<<","<<i*i<<")";
        // sqlite3_exec(db,ssm.str().c_str(),0,0,0);
        sqlite3_reset(stmt);
        sqlite3_bind_int(stmt,1,i);
        sqlite3_bind_int(stmt,2,i*2);
        sqlite3_bind_int(stmt,3,i/2);
        sqlite3_bind_double(stmt,4,i*i);
        sqlite3_step(stmt);
    }
    sqlite3_finalize(stmt);
    sqlite3_exec(db,"commit;",0,0,0);
    clock_t t2 = clock();
    sqlite3_close(db);
    std::cout<<"cost tima: "<<(t2-t1)/1000.<<"s"<<std::endl;
    return 0;
}

提升SQLite資料插入效率低、速度慢的方法

前言 SQLite資料庫由於其簡單、靈活、輕量、開源，已經被越來越多的被應用到中小型應用中。甚至有人說，SQLite完全可以用來取代c語言中的檔案讀寫操作。因此我最近編寫有關遙感資料處理的程式的時候，也將SQLite引入進來，以提高資料的結構化程度，並且提高大資料的處理

運用PARALLEL方式成倍提升Oracle資料分析效率

Oracle作為一種大型資料庫，在我國已成為大型企事業單位（如公立醫院）的主流資料庫並佔有了絕對的市場份額。這就意味著審計工作同Oracle的交集越來越多，同時這種資料庫的使用也意味著遠超SQL SERVER的海量資料資訊，其資料分析效率成為嚴重製約審計工作進度

pandas資料處理（一）pymongo資料庫量大插入時去重速度慢

　　之前寫指令碼爬鬥魚主播資訊時用了一個pymongo的去重語句 db['host_info'].update({'主播': data['主播'], '時間': data['時間']}, {'$set': data}, True): 　　這句話以主播和時間為索引判斷資料庫中如果沒有同一主播同一時

提升R語言運算效率的11個實用方法

眾所周知，當我們利用R語言處理大型資料集時，for迴圈語句的運算效率非常低。有許多種方法可以提升你的程式碼運算效率，但或許你更想了解運算效率能得到多大的提升。本文將介紹幾種適用於大資料領域的方法，包括簡單的邏輯調整設計、並行處理和Rcpp的運用，利用這些方法你可以輕鬆地處

關於DM8168中移植算法速度慢、效率低的新發現

use 效率 dsm crash per eight pan param rcp 有不少的朋友，特別是剛剛接觸DSP的朋友。基於DVRRDK編寫C代碼發現執行速度特別慢，我在上面簡單的對每一個像素的UV分量賦值=0x80，這樣就成了灰度圖像。對1080P圖

Android：SQLite插入大量資料的效率優化

原以為上面的程式碼中，ContentResolver幫忙處理了事務機制。但事實上applyBatch傳入的每條ContentProviderOperation都包含Uri，而ContentResolver並不會記錄或者比較Uri的異同；所以它把每條ContentProviderOperation都當作獨立的

提升mysql大資料插入或者更新資料條目的執行效率

我在做專案的時候有這麼個需求，我需要對每天產生的16000條資料進行批量的更新修改，首先我們先在資料表裡面查詢新的資料條目是否已經在現有的表裡存在，如果存在就執行update方法，如果不存在就直接執行insert方法我的做法就是 for(迴圈16000條資料){ Str

【SQL必知必會】資料插入、更新和

資料的插入insert into values 資料的插入有以下幾種方式：插入完整的行；插入行的一部分；插入多行；插入某些查詢的結果。  插入完整的行: INSERT INTO Customers VALUES ('Pep E. L

資料結構--氣泡排序、歸併排序、快速排序、選擇排序、插入排序(Java版)

一、氣泡排序 1、思路比較相鄰的元素。如果第一個比第二個大，就交換他們兩個。針對所有的元素重複以上的步驟，直到沒有任何一對元素需要比較。 2、實現 /** * 排序演算法的介面 * @author hoaven */ pu

Mysql 提升大資料表的拷貝效率

工作上會經常遇到量級比較大的資料表；場景: 該資料表需要進行alter操作比如增加一個欄位,減少一個欄位. 這個在一個幾萬級別資料量的資料表可以直接進行alter表操作,但是要在一個接近1000W的資料表進行操作,不是一件容易的事；可能情況:1.導致資料庫崩潰或者卡死 2.導致其他程序進行資料庫

Java、PHP、Python、Erlang、Golang 千萬級記憶體資料插入、查詢效能對比

測試環境： centos 6.3 64bit php 7.2 java 1.86 python 3.4.8Erlang/OTP 19 [erts-8.1]golang 1.9.2 至強2.5G 4核 x 2 8 G記憶體 146g scsi x 2 raid 0+1 測試

mysql資料庫學習03-資料插入、修改和查詢

1、表中插入資料： insert into user (name, age) values ('張三', 12 ); 上例說明：之前建立了user表，裡面包含name和age兩列，資料型別分別為varchar和int; 這裡插入資料，要求（name,age）和 ('張三', 12 )值和型別

asp.net access 批量插入大量資料提高速度的方法

我最開始初學的時候直接用迴圈執行insert到資料庫，一條一條執行，資料一多很慢。後來學到了dataset這玩意，發現真好，簡單的說就是把資料庫或其中的一個表拿到程式裡快取，然後隨便各種弄這個快取表，包括插入行什麼的，然後一個update就自動更新回去了，大量資料可能

2.6使用二維陣列儲存學生的資料，包括學號、姓名、作業系統成績、Java成績、高數成績、總分；一行儲存一個學生的資料；要求輸入若干學生的資料，求出總分；然後按照總分由高到低重新排列；輸出排序後的結果

摩爾的Java學習筆記2.6 第二週作業： 1、實現將一組整數進行升序排列； 2、用二維陣列實現，5個學生4門課程的總分和平均分的統計工作； 3、列印八行八列楊輝三角，開頭

二分插入排序演算法、二分檢索、隨機數（桂電灕江學堂資料結構C5）

請編寫程式使用二分插入排序演算法對隨機資料進行降序排序，並對排序後的序列進行二分查詢操作，要求：（1）待排序的資料是計算機隨機生成的 50 個隨機數；（2）實現二分插入排序演算法，並輸出排序後的結果；（3）實現二分檢索演算法，成功返回 1，否則返回 0；（4）統計二分檢索演算法比較的

mysql中關於批量插入資料（1萬、10萬、100萬、1000萬、1億級別的資料）

硬體：windows7+8G記憶體+i3-4170處理器+4核CPU 首先貼上資料庫的操作類BaseDao： import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatem

MYSQL基礎上機練習題（二）資料插入、修改、刪除

一、實驗目的：資料插入、修改、刪除資料表的複製欄位分列二、實驗內容：對上一章所展示的表進行資料輸入、修改、刪除上一章各表的欄位屬性以下為Employees，Departments，Salary表中的內容 Employees表

mysql中關於批量插入資料（1萬、10萬、100萬、1000萬、1億級別的資料）二

硬體：windows7+8G記憶體+i3-4170處理器+4核CPU 關於前天寫的批量插入資料，還有一種方式，就是通過預先寫入文字檔案，然後通過mysql的load in file命令匯入到資料庫，今天把這種方式也說一下，首先是main方法呼叫：解釋一下為什麼要兩個引數：第一個引

Sqlite 快速插入資料到本地表中

用原始Insert方法太慢，網上找到了https://www.cnblogs.com/yisen-code/p/6897524.html 思路是：開啟事務，開啟預處理，然後把SQL用引數傳入具體值來快速寫入資料，本地測試，2W條寫入本地不到1秒。分享給大家 public voi

jdbc插入和更新、查詢資料

jdbc插入資料 /**** * 新增單任務執行記錄 */ @Override public void insertSingleJobLog(ScheduleJobBatchLogDTO sin

提升SQLite資料插入效率低、速度慢的方法

前言

1 資料

2 慢速——最粗暴的方法

相關推薦