1. 程式人生 > >海量資料跨庫比對方案總結

海量資料跨庫比對方案總結

筆者處理資料比對的過程中,由於資料量級比較大,嘗試了N中方法,最後採用DBLink直接查詢資料的方法,這樣資料直接在資料庫層面進行操作會大大提高資料處理速度。

下面列出四中資料比對方法以供參考。

少量資料的時候可以採用的方法比較多

第一種: 表輸入查詢的指作為引數傳遞給需要比對的表,海量資料使用這種方法會出現程式假死的現象。 第二種 用資料庫查詢元件,將表輸入作為查詢條件查詢目標,在資料量過多的情況使用快取會出現記憶體溢位的錯誤。 第三種 採用笛卡爾積將兩張表進行關係比較,這個元件需要仔細配置,否則會出現磁碟空間不足的錯誤。

海量資料方案(源表和目標表都是海量資料):

在a庫上建立一個指向b庫的dblink,再用kettle連線到A庫,或者在b庫上建一個指向A庫的dblink用kettle連線到B庫