[置頂] 大資料的驗證和插入資料庫

阿新 • • 發佈：2019-02-07

最近在做專案的時候涉及到大資料的校驗和插入。問題描述：通過Excel匯入客戶資訊表至資料庫中指定表。

剛看到該問題，自然而然就是想直接將Excel解析至記憶體。在記憶體中遍歷對應的客戶List集合，取出每一個Customer和資料庫中的資料進行比對判斷該使用者是否存在，存在的話在重複值上計數，不存在的話插入資料庫。但是當資料達到10w+的時候，那個速度都不能直視了。思考解決方案，首先採用的解決方案：校驗放在外層，裡層進行判斷分多執行緒執行。每個執行緒5k資料。只有5-6 k資料時，還可以。但是當資料量達到10w+時，速度還是很慢。後來測試發現，單單只是用插入其實速度還是可以的，但前面加上驗證之後，就嚴重拖垮了插入速度。但驗證還必須使用，苦惱了好一陣。後來通過在網上查詢相關資料發現，有一個比較好的解決方案：在資料庫的對應校驗欄位建立唯一索引，在插入的時候讓資料庫自己進行校驗。程式碼邏輯和資料庫分攤壓力。在使用save時，由於建立了唯一索引所以插入會出問題，報DataIntegrityViolationException的異常。在Try,catch中將其捕捉，進行重複值的累計。這時，之前想要的效果已經實現。

[置頂] 大資料的驗證和插入資料庫

[置頂] 大資料的驗證和插入資料庫

一篇文章詳解大資料技術和應用場景

滴滴技術沙龍第1期：聚焦大資料架構和實踐

白話大資料 | Spark和Hadoop到底誰更厲害？

大資料原理筆記——雲資料庫（二）

大資料Hadoop和Spark有什麼區別？內附大資料Spark+Hadoop資料

大資料平臺和MySQL之間的資料匯出和匯入

學習大資料有什麼用？大資料當前和未來的優勢是什麼？

大資料技術和應用

給 Java 開發者的 10 個大資料工具和框架

mysql大資料分庫和分表 php解決方案

大資料現狀和未來展望--百度大資料主任架構師馬如悅訪談

大資料架構和模式（五）對大資料問題應用解決方案模式並選擇實現它的產品

bitmap實現大資料排序和去重

近日有需要寫點C#程式，有用到Dataset資料集和SQLite資料庫，由於我從來就不擅長記各種程式語言的語法，所以在查閱一堆資料後，留下以下內容備忘：一、SQLite操作，直接貼程式碼，很簡單

基於LDAP和Sentry的大資料認證和鑑權解決方案--Part One:LDAP整合

大資料概念和Hadoop基本介紹

C#大資料批量增加到資料庫

大資料特點和基本處理流程

未來大資料發展和就業前景：大資料人才缺口到底有多大？

[置頂] 大資料的驗證和插入資料庫

相關推薦