EXPDP、IMPDP規範及常用技巧總結
一、巧用並行提升速度
在EXPDP/IMPDP過程中,為了提升速度,而使用並行,有人說不就是加個parallel=n引數嘛,但該如何利用該引數做到真正提升速度呢?
1、單表匯出匯入資料時使用parallel=n引數無效
2、匯入(IMPDP)索引過程中是序列的方式,雖然在執行計劃中看到建索引時是帶並行引數,但建議使用sqlfile引數生成語句的方式建索引,避免因建立了結構後,再匯入資料,這樣就會變得異常慢。大概步驟如下:
cat >expdp_testdump_20181218.par <<EOF userid='/ as sysdba' directory=datadump dumpfile=expdp_testdump_20181218_%U.dmp logfile=expdp_testdump_20181218.log cluster=no parallel=2 exclude= index,constraint EOF --排除索引和約束,執行匯入 nohup impdp parfile=expdp_testdump_20181218.par > expdp_testdump_20181218.par.out & --通過sqlfile引數生成建立索引語句 cat >impdp_testdump_idx_20181218.par <<EOF userid='/ as sysdba' directory=datadump dumpfile=expdp_testdump_20181218_%U.dmp sqlfile=impdp_testdump_idx_20181218.sql logfile=impdp_testdump_idx_20181218.log cluster=no parallel=2 tables=scott.testdump include=index,constraint EOF --執行生成建立索引語句(實際並不會匯入) nohup impdp parfile= impdp_testdump_idx_20181218.par > impdp_testdump_idx_20181218.par.out & --修改建立索引的並行度,並行度建議不超過CPU核數的1.5倍 --LINUX環境使用 sed -i 's/PARALLEL 1/PARALLEL 16/g' impdp_testdump_idx_20181218.sql --因AIX環境sed沒有-i引數,可以使用如下兩種方法: perl -pi -e 's/ PARALLEL 1/PARALLEL 16/g' impdp_testdump_idx_20181218.sql 或者 vi impdp_testdump_idx_20181218.sql << EOF :%s/ PARALLEL 1/PARALLEL 16/g :wq EOF --等匯入完資料之後,執行建索引的SQL: cat create_testdump_index.sh . ~/.profile sqlplus / as sysdba <<EOF set timing on set echo on set verify on spool create_testdump_index.log @impdp_testdump_idx_20181218.sql spool off exit EOF --執行建索引的SQL nohup sh create_testdump_index.sh> create_testdump_index.sh.out &
以上可能看起來簡單的事變的複雜,步驟多了,本來一個引數能解決的事(實際也不能解決),這個步驟已經經過多次實踐,解決索引不能並行建的問題。
3、線上調整並行度
當匯出匯入動作已經發起後,發現並行還可以加大,或者需要減少,該怎麼辦?
expdp \'\/ as sysdba\' attach=SYS_EXPORT_SCHEMA_01
再執行paralele n就可以調整。
二、含LOB大表匯出技巧
在匯出含LOB欄位的大表時,表未分割槽,並且表大小已過TB,在匯出過程中經常遇到因undo表空間大小和undo_retention設定保留時間,導致ORA-01555: snapshot too old的報錯。那該怎麼避免呢?
通過rowid或者主鍵的方式分批匯出(推薦使用rowid)
--建立一個表用於記錄要匯出表的rowid,並分批,這裡分成50 create table scott.exp_rowid as select mod(rownum,50) sou_seq,rowid sou_rowid from scott.lobtest; --根據分批次數生成對應的parfile檔案 cat >expdp_lobtest_20181219_seq0.par <<EOF userid='/ as sysdba' directory=datadump dumpfile=expdp_lobtest_20181219_%U.dmp logfile=expdp_lobtest_20181219.log cluster=no tables=scott.lobtest query="where rowid in (select sou_rowid from scott.exp_rowid where sou_seq=0)" EOF --執行匯出 nohup expdp expdp_lobtest_20181219_seq0.par > expdp_lobtest_20181219_seq0.par.out & ….. nohup expdp expdp_lobtest_20181219_seq50.par > expdp_lobtest_20181219_seq50.par.out & 分成50個批次匯出,可通過迴圈生成匯出指令碼,這裡先不提供迴圈指令碼,後面提供參考
或者通過如下指令碼:
chunk=10 for ((i=0;i<=9;i++)); do expdp /as sysdba TABLES=LOBTEST QUERY=LOBTEST:\"where mod\(dbms_rowid.rowid_block_number\(rowid\)\, ${chunk}\) = ${i}\" directory=DMP dumpfile=lobtest_${i}.dmp logfile= lobtest_${i}.log & echo $i done
三、多表序列自動化匯出匯入
有這樣一種場景,做OGG初始化時,需要匯出匯入某個業務不同schema下不同的表,如果表數量比較多的情況下,降低匯出匯入時對庫的壓力,可通過以下方式,進行匯出匯入。
--提供多表自動迴圈匯入指令碼, cat auto_impdp.sh while read tab_name do impdp_num=`ps -ef|grep impdp|grep -v grep|grep -v "tail "|wc -l` while [ $impdp_num -ge 1 ] do sleep 1m impdp_num=`ps -ef|grep impdp|grep -v grep|grep -v "tail "|wc -l` done par_file='echo "impdp_"$table_name"_181219.par"' log_file='echo "impdp_"$table_name"_181219.log"' echo 'userid="/ as sysdba"' >$par_file echo "dumpfile=expdp_scott_181219_%U.dmp" >>$par_file echo "logfile="$log_file >> $par_file echo "exclude=statistics,object_grant,index" >> $par_file echo "transform=segment_attributes:n" >> $par_file echo "tables=("$tab_name")" >> $par_file nohup impdp parfile="$par_file " > " $par_file".out 2>&1 & done <table_list.txt
這裡可能應用場景並不多,但對於自動化生成指令碼可以提供一個很好的參考。
四、進度查詢和監控
但領導問你導數進度時,會不會手忙腳亂的,無從查起?當然,作為一個負責任的DBA,實時的知道匯出匯入的進度,是必須掌握的技能。
1、 檢視資料泵作業的執行情況
select owner_name owr,job_name jbn,operation ope,job_mode jbm,state,degree, attached_sessions atts,datapump_sessions dats from dba_datapump_jobs;
select sid, serial#,session_type from v$session s, dba_datapump_sessions d where s.saddr = d.saddr;
2、監控資料泵的邏輯備份程度
SELECT sid, serial#, context, sofar, totalwork, ROUND(sofar/totalwork*100,2) "%_COMPLETE" FROM v$session_longops WHERE totalwork != 0 AND sofar <> totalwork; SID SERIAL# CONTEXT SOFAR TOTALWORK %_COMPLETE 103 89 0 54 7 83.33
3、檢視資料泵的詳細進度
expdp \'\/ as sysdba\' attach= SYS_IMPORT_TABLE_01 Import> status Job: SYS_IMPORT_TABLE_01 Operation: IMPORT Mode: TABLE State: EXECUTING Bytes Processed: 1,364,791,288 Percent Done: 99 Current Parallelism: 2 Job Error Count: 0 Dump File: /opt/datadump/expdp_testdump_20181218_01.dmp
五、效能診斷技巧
在匯出匯入過程中,偶爾會遇到一些效能問題,可以會因主機資源,資料庫版本,PSU版本,datapump本身bug等原因導致。
首先可根據需求判斷是在哪個環節出問題,匯出/匯入元資料還是資料時出現效能問題;是否是匯出/匯入特定物件遇到效能問題?對於這些問題,MOS上提供瞭如下3種診斷方法:
方法一: 在expdp/imdp命令中新增引數METRICS=Y TRACE=480300 (或者 480301 捕獲SQL trace) 並重新執行expdp/impdp 方法二: 對DataPump Master (DM) 和 Worker (DW)程序啟用level 12的10046 trace (資料庫版本 >= 11g) SQL> connect / as sysdba -- 版本>= 11g and < 12c SQL> alter system set events 'sql_trace {process : pname = dw | pname = dm} level=12'; -- 版本= 12c SQL> alter system set events 'sql_trace {process: pname = dw | process: pname = dm} level=12'; 然後用引數METRICS = Y加入命令列啟動expdp/impdp 方法三:(推薦) 跟蹤已經開始執行的DataPump 匯出程序 SQL> connect / as sysdba set lines 150 pages 100 numwidth 7 col program for a38 col username for a10 col spid for a7 select to_char (sysdate, 'YYYY-MM-DD HH24:MI:SS') "DATE", s.program, s.sid, s.status, s.username, d.job_name, p.spid, s.serial#, p.pid from v$session s, v$process p, dba_datapump_sessions d where p.addr = s.paddr and s.saddr = d.saddr and (UPPER (s.program) LIKE '%DM0%' or UPPER (s.program) LIKE '%DW0%'); 確認Data Pump Worker SID 和 SERIAL# (例如. 對於 DM 和DW 程序)。 以level 12跟蹤 Master/Worker 程序 (bind和wait資訊): SQL> exec sys.dbms_system.set_ev (SID, SERIAL#, 10046, 12, ''); 等待一段時間 (至少1 小時) 以捕獲足夠的資訊。 結束跟蹤: SQL> exec sys.dbms_system.set_ev (SID, SERIAL#, 10046, 0, '');
以上為MOS提供的診斷方法,可靈活的使用,查詢出DataPump程序的SID後可以查詢是否有會話阻塞,異常等待事件是什麼?比如由於“StreamsAQ: enqueue blocked on low memory”等待事件導致expdp / impdp命令出現嚴重效能問題,是因為Bug 27634991引起的(在版本19.1及更高版本中修復了)。
六、其它引數技巧
1、巧用括號將引數包含
匯入目標庫要求換使用者名稱和表名,比如:
remap_schema=scott:test
remap_table= t1:t2 --無括號需多個引數
可直接寫成
remap_table=(scott.t1: test.t2) --正確姿勢
如果沒有括號會怎樣呢?
remap_table= scott.t1: test.t2
. . imported "SCOTT"."TEST.T2" 0 KB 0 rows –可看到匯入的還是SCOTT使用者的表
2、 儲存引數的消除
當匯入到目標端時,如果表空間不同,需要用remap_tablespace轉換表空間,且源端匯出的元資料是建立表結構的語句是包含預分配段的,此時會佔用很多的表空間,可用以下引數消除儲存引數。
transform=segment_attributes:n
使用該引數會將物件段分配在匯入目標使用者的預設表空間上。
3、預估導數時間
有時想預估匯出匯入某個物件的時間和消耗,而不想真正匯入,可以使用estimate
4、關於壓縮compression
在空間不足的情況下,使用compression=all進行壓縮匯入,壓縮比大概是1:6左右,根據匯出資料型別的不同會有偏差,使用壓縮,匯出/匯入時,耗時較長。
5、include/exclude包含選擇性條件時需注意的點
exclude/include引數用法:
exclude=[object_type]:[name_clause],[object_type]:[name_clause] -->排出特定物件
include=[object_type]:[name_clause],[object_type]:[name_clause] -->包含特定物件
l exclude、include引數不能同時使用,這2個引數相斥
l 使用parfile,可以用多個exclude引數,但只能用一個include引數
l include、exclude引數中,在escape語句中,不能用\作為轉義符
6、query引數的使用技巧
直接在命令列輸入引數,在linux環境下,所有特殊字元都否要使用\轉義
QUERY=SCOTT.TEST1:\"WHERE create_date \>= TO_DATE\(\'20181219 10:00:00\',\'yyyymmdd hh24:mi:ss\'\)\"
通過用parfile方式,可以不用加轉義符(推薦)
QUERY=SCOTT.TEST1:"WHERE create_date >= TO_DATE('2018-12-19 10:00:00','yyyy-mm-dd hh24:mi:ss')"
7、expdp/impdp其它需要注意問題
對應表空間的建立,表空間大小分配,歸檔目錄大小(匯入會產生很多歸檔),匯入索引時temp表空間的大小,源和目標庫的版本,字符集是否一致,share pool大小等。
七、源和目標導數比對
查詢是否存在報錯:grep –i ora- expdp_testdump_20181219.log
grep ^". . exported " exp_testdump_20181219.log|awk '{print $4,$7}'|sed 's/"//g'|sort –n>1.txt
grep ^". . exported " imp_testdump_20181219.log|awk '{print $4,$7}'|sed 's/"//g'|sort –n>2.txt
comm 1.txt 2.txt --比對匯出匯入記錄數是否一致
源和目標對比匯出匯入物件數是否一致
select owner,object_type,count(*) from dba_objects where owner='SCOTT' group by owner,object_type order by 1,2,3;
八、12c的一些新功能
1、 像表一樣匯出檢視
views_as_tables引數允許把檢視當成表匯出
2、 transform引數的擴充套件加強
為減少匯入期間減少相關日誌的產生,可使用transform=disable_archive_logging:y,(包含表和索引級別)匯入後再將日誌屬性重置為LOGGING。
匯入時改變表的LOB儲存:TRANFORM引數的LOB_STORAGE子句使得在進行非可傳輸匯入操作時改變表的壓縮特性。TRANSFORM=LOB_STORAGE:[SECUREFILE | BASICFILE| DEFAULT | NO_CHANGE]
匯入時改變表壓縮:TRANSFORM引數的TABLE_COMPRESSION_CLAUSE子句允許表匯入過程中動態改變表的壓縮特性TRANSFORM=TABLE_COMPRESSION_CLAUSE:[NONE |compression_clause]
3、 匯出壓縮可指定壓縮級別
COMPRESSION_ALGORITHM=[BASIC | LOW | MEDIUM |HIGH]
4、 在安全方面,增加了expdp/impdp的審計功能,已經使用加密匯出時,加密口令的增強。
5、資料泵用於PDB和用於非CDB資料庫沒太大差別,要匯出/匯入某個PDB時,指定對應的就行userid='/ as [email protected]'
總結:
使用資料泵進行匯出匯入需要考慮的地方很多,這裡是對以往經驗的一些總結,文中沒有介紹資料泵在傳輸表空間中相關的內容和技巧,後續補充。