1. 程式人生 > >unload/copy解決小資料量的Redshift到Greenplum遷移

unload/copy解決小資料量的Redshift到Greenplum遷移

兩行命令解決小資料量的資料從Redshift到Greenplum的遷移,中間有一些人工操作。認為應當有更優雅的方式。

源表和目標表schema一致,為避免特殊字元問題,謹慎選擇分隔符(delimiter)。

Redshift 

unload ('SELECT * FROM <source_table> where <clause>') TO 's3://<bucket_name>/<..>/<prefix>_' 
       CREDENTIALS 'aws_access_key_id=<aws_access_key_id>;aws_secret_access_key=<aws_secret_access_key>' 
       manifest delimiter '~' allowoverwrite parallel off;

將unload的檔案下載到greenplum master機器,例如 /home/pgadmin/test.csv

Greenplum 

copy <dest_table> from '/home/gpadmin/test.csv' DELIMITER '~' NULL AS '' CSV LOG ERRORS SEGMENT REJECT LIMIT 100 ROWS

Done.

官方文件:

相關推薦

unload/copy解決料量的Redshift到Greenplum遷移

兩行命令解決小資料量的資料從Redshift到Greenplum的遷移,中間有一些人工操作。認為應當有更優雅的方式。源表和目標表schema一致,為避免特殊字元問題,謹慎選擇分隔符(delimiter)。Redshift unload ('SELECT * FROM <

MySQL 8.0 料量備份工具mysqldump

#!/bin/bash export LANG=en_US.UTF-8 BACKUP_DIR=/data/backup FILESPACE=$(date +%Y%m%d%H%M%S) #Backup full databases mysql -h10.19.157.158 -uroot -pXX

sparkStreaming+flume實現記憶體計算(料量情況下)

架構分析sparkStreaming一般結合kafka使用,但是如果你的資料量比較小,就可以不用搭建kafka叢集,那麼flume提供了兩種提供資料給sparkStreaming的方式一種是push,一種是Pull,Pull是sparkStreaming向flu

TensorFlow和Keras解決料量記憶體溢位問題

記憶體溢位問題是參加kaggle比賽或者做大資料量實驗的第一個攔路虎。 以前做的練手小專案導致新手產生一個慣性思維——讀取訓練集圖片的時候把所有圖讀到記憶體中,然後分批訓練。 其實這是有問題的,很容易導致OOM。現在記憶體一般16G,而訓練集圖片通常是上萬張,而且RGB圖,還很大,VGG16

利用MySQL資料庫如何解決料量儲存問題?

一、概述 分表是個目前算是比較炒的比較流行的概念,特別是在大負載的情況下,分表是一個良好分散資料庫壓力的好方法。 首先要了解為什麼要分表,分表的好處是什麼。我們先來大概瞭解以下一個資料庫執行SQL的過程: 接收到SQL --> 放入SQL執行佇列 --> 使用分析器分解SQL -->

微信文章閱讀數點贊數查詢API介面及實現(料量)

微信文章閱讀數點贊數查詢API介面及實現 研究過微信文章閱讀和點贊數的同學都知道,如何獲取這兩個數字,關鍵在於獲取微信有效的key.這個key的作用時間大概是2小時,而且也有訪問頻率的限制.訪問頻率可以用程式碼控制,大概10秒一次的速度就不會被遮蔽.接下來說如何完全自動獲

Postgresql 遠端同步(非實時同步,料量)

源端要開通目標的相關訪問許可權 目標端: 1.建立遠端表的檢視 create view v_bill_tbl_version_update_control_info as SELECT * FROM dblink('hostaddr=10.10.10.8 port=

exp/expdp傳輸表空間和rman convert實現大料量快速遷移

將Oracle資料庫中某個使用者遷移到另外一個庫上,遷移的資料量大小約 120GB 。如果採用 expdp 匯出的話時間會很長,再加上匯出的 DMP 檔案拷貝和 impdp 匯入資料的時間,不能滿足要求。  這裡採用 RMAN 的CONVERT 功能和 exp/expdp

料量單表在不同表名列名間的資料遷移

(windows Server 2008 R2+oracle 11g) 單表資料1.5億條記錄,90個欄位,檔案大小70G 處理思路:源端單表exp,目標端單表imp,再通過欄位對應關係轉入到目標表(不同表名、列名) exp username1/password1 buffer=6400

POI操作大料量Excel時,new SXSSFWorkbook(1000)例項化失敗問題解決

專案上使用POI匯出資料庫大資料量為Excel時,發現程式碼執行時 例項化工作簿 失敗! SXSSFWorkbook workbook = new SXSSFWorkbook(100); trycatch問題程式碼後,在debug中也並未進入異常處理,而是直接進入了finally 最後

主要是解決,作為一個數據共享的資料庫,存在的資料庫統計,然後將計算的料量輸出到自己使用的資料庫,進行主頁面展示。

1、主要是解決,作為一個數據共享的資料庫,存在的資料庫統計,然後將計算的資料量輸出到自己使用的資料庫,進行主頁面展示。 1 1、第一步,可以查詢自己作為目標表的資料表的資料量。方便做條件過濾,如果資料量大於0,那麼查詢出所有欄位,然後將is_sync標識位標為1。 2 select co

Volley---適合場景:適合料量、頻率高的請求,為什麼?

一、簡介 Volley請求網路 是基於請求佇列的,只要把請求放入請求佇列就可以了。 Voller底層封裝的是HttpUrlConnection,支援圖片載入,網路請求排序,優先順序處理,快取,與Activity生命週期聯動。擴充套件性好,支援httpclient,HttpUrlConne

介面料量太大,導致記憶體溢位,解決辦法

通常我們使用介面呼叫資料總是返回一段我們需要的資訊,或者是json 格式資訊,通過接收將資料儲存到程式當中,再對接收到的資料進行轉換成對應的模型格式 。目前遇到的問題是接收的資料量過於巨大,導致完整接收將導致記憶體溢位,無法進行接下去的工作 。 解決辦法: 我們將資料儲存到本地檔案 ,再通過

料量情況下查詢效能低,耗時長的一種問題以及解決思路

背景交代: 1   mongodb 有500萬條資料                  2  經過過濾 還有20多萬條資料 要得到上述20w條資料,一次查詢得到20多萬條,很可能會產生效能問題,於

解決mongodb大料量分頁查詢效率問題

最常見的分頁採用的是skip+limit這種組合方式,這種方式對付小資料倒也可以,但是對付上幾百上千萬的大資料,只能力不從心,skip如果跳過大量的資料會很慢,並且會越查越慢,針對這一情況,可以通過條件查詢+排序+限制返回記錄,即 邊查詢,邊排序,排序之後,抽取上一頁中的最後一條記錄,作為當前分

java生成部門或選單的分叉樹 for迴圈遞迴 料量可以 大的話就是龜速 (第一次分享 望指正!)

最近公司遍歷資料部門  生成tree結構的資料    苦惱的頭大,搜尋多篇 找到一個  暫時解決了資料量小的選單小問題  如圖 /** * 遞迴查詢子選單 * * @param id * 當前選單id * @param rootMenu *

幫軟體機器人,解決連鎖藥店的資料遷移...

小幫軟體機器人,解決連鎖藥店的資料遷移煩惱… 姐姐們再加把勁,明天再加一天班,肯定能把所有的資料,全部錄完,到時候大家一起去吃海鮮!” 小黎給五個姐姐打完雞血,想著連續半個月,埋頭苦幹錄歷史資料,將公司老系統中的資料匯出來,人工錄入到新系統,作為專案負責人的他,內心也是崩潰的。 工作其實沒什

keras大料量訓練解決方法

當資料量很大時無法將資料全部讀入記憶體運算,報錯,可以改用批處理解決問題。 一.pandas讀資料時可以設定成批量讀入 二.使用keras中的train_on_batch方法 示例程式碼: reader = pd.read_table('tmp.sv', sep=',', chunk

料量同步方案之全量同步改為增量同步解決方案

背景描述:   在一些大資料運用場景中,由於上游資料每天都在變化著,在需要用這些資料的下游系統需要每天重新整理這些變化的資料,當資料量小時候,簡單粗暴的方式就是每次全量更新資料,但隨著業務的增長,資料量成幾何方式增長時(達到億級別甚至更多),每次的更新工作將是

MySQL單表料量過千萬,採坑優化記錄,完美解決方案

問題概述 使用阿里雲rds for MySQL資料庫(就是MySQL5.6版本),有個使用者上網記錄表6個月的資料量近2000萬,保留最近一年的資料量達到4000萬,查詢速度極慢,日常卡死。嚴重影響業務。 問題前提:老系統,當時設計系統的人大概是大學沒畢業,表設計和sql語句寫的不僅僅是垃圾