記一次資料庫的分析和優化建議(r6筆記第24天)

阿新 • • 發佈：2022-05-04

資料庫的巡檢是DBA工作中的一部分，有時候我們還是希望能夠在巡檢的基礎上發現一些潛在的問題，把儘可能多的問題解決在初始階段。

今天來給大家舉一個數據庫巡檢和效能分析的例子。

首先拿到一個數據庫伺服器，瞭解系統資訊是必要的，同時還要分析資料庫的資訊，然後儘可能發現是否存在效能瓶頸，然後需要做一個對比的分析。

系統資訊

$ cat /etc/issue
Red Hat Enterprise Linux Server release 5.3(Tikanga)
Kernel r on an m
$ ksh cpuinfo.sh

**************************************
CPU Physical NO:  2
CPU Processor NO:  16
CPU Core NO:  cpu cores : 4
CPU model name : Intel(R) Xeon(R) CPU E5620@ 2.40GHz
************************************** 
top - 10:39:48 up 389 days,  2:28, 1 user,  load average: 0.91, 0.91,0.80
Tasks: 1370 total,   1 running, 1363 sleeping,   0 stopped,  6 zombie
Cpu(s): 1.2%us,  0.2%sy,  0.0%ni, 96.8%id,  1.6%wa, 0.0%hi,  0.2%si,  0.0%st
Mem: 65996212k total, 65820480k used,  175732k free,   530412k buffers
Swap: 16779884k total,      236k used, 16779648k free, 17410172kcached

Hugepage已經啟用了。

[oracle@acc136 bdump]$  cat /proc/meminfo | grep -i page
AnonPages:     4783576 kB
PageTables:     359020 kB
HugePages_Total: 20525
HugePages_Free:     60
HugePages_Rsvd:     16
Hugepagesize:     2048 kB

資料庫級資訊

資料庫是10gR2,2014年啟動至今

記憶體元件的使用情況

Cache Sizes
~~~~~~~~~~~          Begin        End
-----------------------------------------------------------------
BufferCache:        39,472M   39,472M  Std Block Size:         8K
SharedPool Size:     1,440M    1,440M      Log Buffer:    14,256K

其它記憶體元件的大小

Session資訊的統計

鎖和事務情況

$ ksh showlock.sh

Current Locks

-------------

There are also 0 transaction locks

Blocking Session Details

Redo日誌切換頻率

表空間使用情況

常規檢查，就不貼圖了。

使用者資源使用情況

檢視資料庫中使用者資源的使用情況。常規檢查就不貼圖了。

近一週的資料庫負載圖表

針對兩個不同時段的效能抖動進行分析。

第一個效能抖動最劇烈的時間段，是在8月8日凌晨

等待事件如下，可以看到主要的效能瓶頸在於IO

CPU資源都消耗在sql部分。

Top sql如下：

 Elapsed      CPU                  Elap per  % Total
 Time (s)   Time (s)  Executions  Exec (s)  DB Time    SQL Id
---------- ---------- ---------------------- ------- -------------
    1,856         31      288,077        0.0   18.9 57j9uu7c9681a
Module: JDBC Thin Client
SELECT * FROM TEST_CN_BIND WHERE CN=:1 AND CN_TYPE IN(1,2,3) AND ENABLED='Y'ORDER BY
 CN_TYPE
    1,659         75        1,352        1.2   16.9 acbdxf552ud62
update TEST_USER_BILLING set LOGIN_STATUS = 1 where UIN = :1
    1,162        328            1     1162.1   11.8 b6usrg82hwsa3
Module: DBMS_SCHEDULER
call dbms_stats.gather_database_stats_job_proc ( )
      172,774       1,352         127.8    1.4   75.33   1659.42 acbdxf552ud62
update USER_BILLING set LOGIN_STATUS = 1 where UIN = :1

效能問題分析：

IO問題

從Oracle的角度來看，IO瓶頸較高，針對目前的情況，沒有更好的系統級改進建議

The throughput of the I/O subsystem wassignificantly lower than expected.

RECOMMENDATION 1: Host Configuration, 13% benefit (1258 seconds)

ACTION: Consider increasing the throughput of the I/O subsystem.

Oracle's recommended solution is to stripe all data file using the

SAME methodology. You might also need to increase the number of disks

for better performance. Alternatively, consider using Oracle's

Automatic Storage Management solution.

RATIONALE: During the analysis period, the average data files' I/O

throughput was 52 M persecond for reads and 2.1 M per second for

writes. The average response time for single block reads was 5.9

milliseconds.

後臺自動job執行

call dbms_stats.gather_database_stats_job_proc ( )

後臺job執行時，會根據條件進行統計資訊的收集。

從Top sql來看，大表test_user_billing的查詢acbdxf552ud62基於unique index scan，但是執行時間在1.4秒，主要的原因就是因為在執行期間同時在後臺進行統計資訊的收集。

從Oracle的建議可以看到其實做了一個全物件掃描，產生了大量的物理讀。

ACTION: Run "Segment Advisor" onTABLE "ACC.USER_BILLING" with object id

51864.

RELEVANT OBJECT: database object with id 51864

ACTION: Investigate application logic involving I/O on TABLE

"xxxx.TEST_USER_BILLING" with object id 51864.

RELEVANT OBJECT: database object with id 51864

RATIONALE: The I/O usage statistics for the object are: 1 full object

scans, 11827830 physicalreads, 459490 physical writes and 0 direct

reads.

RATIONALE: The SQL statement with SQL_ID "acbdxf552ud62" spent

significant time waiting for User I/O on the hot object.

RELEVANT OBJECT: SQL statement with SQL_ID acbdxf552ud62

update TEST_USER_BILLING set LOGIN_STATUS = 1 where UIN = :1

RATIONALE: The SQL statement with SQL_ID "92a49umxy7q8m" spent

significant time waiting for UserI/O on the hot object.

RELEVANT OBJECT: SQL statement with SQL_ID 92a49umxy7q8m

select /*+ no_parallel(t) no_parallel_index(t) dbms_stats

cursor_sharing_exact use_weak_name_resl dynamic_sampling(0)

no_monitoring */ count(*),count("CARD_NO"),count(distinct

"CARD_NO"),count("MAC_VAL"),count(distinct"MAC_VAL") from

"ACC"."USER_BILLING" sample ( 9.1540402221) t

第二個效能抖動時間點的分析

第二個時間點的分析可以排除後臺job的執行影響，主要的瓶頸還是在於IO

效能問題分析：

The throughput of the I/Osubsystem was significantly lower than expected.

RECOMMENDATION 1: Host Configuration, 30% benefit (2038 seconds)

ACTION: Consider increasing the throughput of the I/O subsystem.

Oracle's recommended solution is to stripe all data file using the

SAME methodology. You might also need to increase the number of disks

for better performance. Alternatively, consider using Oracle's

Automatic Storage Management solution.

RATIONALE: During the analysis period, the average data files' I/O

throughput was 1.8 M persecond for reads and 3.3 M per second for

writes. The average response time for single block reads was 14

milliseconds.

SYMPTOMS THAT LED TO THE FINDING:

SYMPTOM: Wait class "User I/O" was consuming significantdatabase time.

(93% impact [6405 seconds])

改進建議：

開啟非同步IO

目前系統中aio配置存在，但是沒有啟用

$ cat /proc/sys/fs/aio-nr
65536
$ cat/proc/sys/fs/aio-max-nr
65536
$  /usr/bin/ldd $ORACLE_HOME/bin/oracle | greplibaio
       libaio.so.1 => /usr/lib64/libaio.so.1 (0x00002af9f4ad8000)   
SQL> alter system setfilesystemio_options=setall scope=spfile;

後臺Job的排程

需要進行確認是否可以重新選擇一個低峰時間段來執行Job或者從後臺禁用。按照時間頻率進行統計資訊的收集

SGA元件的調整

從記憶體元件的使用情況來看,shared pool的資源已經被buffer cache進行了壓榨，可以適當調整一下shared pool的大小，比如設定為4G左右，目前僅為1G

內容根據情況看適度做了刪減，可以看出來做一個數據庫巡檢的過程中其實還是需要花費不少的精力來分析問題，找到效能的瓶頸，這也是我們能夠持續改進質量的基線。

記一次資料庫的分析和優化建議(r6筆記第24天)

資料庫的巡檢是DBA工作中的一部分，有時候我們還是希望能夠在巡檢的基礎上發現一些潛在的問題，把儘可能多的問題解決在初始階段。

記一次dg故障的處理總結(r6筆記第63天)

今天早上收到一條報警簡訊，提示是dg的接收出了問題，從v$dataguard_status得到的最新記錄如下：

物化檢視中的統計資訊導致的查詢問題分析和修復（r7筆記第47天)

今天開發的同事下午反饋給我一個問題，說有操作直接卡住了，聽這個描述，感覺很可能是查詢慢了。

一次資料變更的稽核過程(r8筆記第95天)

今天正在做一個數據變更操作，突然一個開發的同學找到我，看起來比較著急的樣子，說想讓我做一個數據變更。

兩條報警資訊的分析（第二篇)(r6筆記第71天)

還是繼續分析報警資訊的關聯，下面兩個看似沒有直接聯絡的報警資訊其實很有關聯。

兩條報警資訊的分析（第一篇) (r6筆記第70天)

任何規則都是固定的，但是人是活的，很多時候把一些細節之處結合起來，還是能夠發現一些潛在的問題。

記一次資料庫冷熱分離

前言最近在一家小公司實習，文章也沒怎麼更新。前兩天參與了後臺系統資料庫冷熱分離（一期）的工作，雖然只是參與了定時任務和介面的開發改造，但還是想了解一下它的前因後果，畢竟作為一隻鹹魚，就要有翻身之後再作

記一次linux tcp和kafka調參

線上kafka叢集事故，很快根據kafka和dmesg linux核心日誌定位到表面原因， [Tue Jun 30 19:22:29 2020] TCP: out of memory -- consider tuning tcp_mem

記一次抓包和破解App介面

目錄第一章 · 起源第二章 · 嘗試第三章 · 脫獄第四章 · 柳暗花明第五章 · 終結

記一次Parallels Desktop和VMware共享網路(Net模式)時與Mac系統IP地址衝突的問題，及曲線解決方案

原因：在Mac系統上使用Parallels Desktop時，不小心把某網絡卡的IP地址設定成了Parallels Desktop共享網路(Net模式)的閘道器，導致IP地址衝突；觸發了系統的某種保護功能，使Mac系統無法與Parallels Deskto

記一次XML檔案讀取優化

背景　　最近在接手公司的一個老專案的時候發現開啟軟體介面的時候MenuItem的子項Items資料載入極其緩慢，造成點選介面的時候介面卡頓，最後分析原因是由於在讀取XML的時候沒有充分考慮到效能問題從而造成讀取操作效

火影推薦程式連載73-記一次使用策略模式優化程式碼的經歷

管理MQ的核心類：ConnectionFactory ConnectionFactory封裝了com.rabbitmq.client.Connection，官方提供的實現類為CachingConnectionFactory，它快取了建立的通道（Channel），預設為25個，可以通過setChannelCacheS

記一次 Java 服務效能優化

背景前段時間我們的服務遇到了效能瓶頸，由於前期需求太急沒有注意這方面的優化，到了要還技術債的時候就非常痛苦了。

記一次mysql慢查詢優化

問題背景線上監控發現mysql慢查詢，mysql最大執行時間60s，介面p99耗時1.88s 優化記錄

記一次Prometheus代理效能優化問題

最近有做一個Prometheus metrics代理的一個小專案，暫稱為prom-proxy，目的是為了解析特定的指標(如容器、traefik、istio等指標)，然後在原始指標中加入應用ID(當然還有其他指標操作，暫且不表)。經過簡單的本地驗證

一次資料庫宕機問題的分析(r6筆記第5天)

今天來到辦公室，發現有一臺伺服器中的資料庫例項停掉了。這種情況真是意料之外，尤其是我還不是很熟悉這臺機器的服務。

資料庫日誌中一條"異常"資訊所包含的細節(r6筆記第18天)

今天在梳理伺服器的資訊的時候，發現有一臺伺服器沒有設定crontab作業,一般的伺服器中可能會需要一些定時的任務來觸發一些備份，清理等等工作。

關於奇怪的並行程序分析(一) (r6筆記第41天)

在使用orabbix進行監控的時候，得益於使用實時DB time監控的選項，對於幾分鐘內的效能抖動也能夠狠容易的記錄下來，而且會把這個監控的結果基本真實反應出來，不會隨著兩個快照的間隔被平均，這樣效能問題的分析和排

一條insert語句導致的效能問題分析（二)（r8筆記第43天)

今天對之前描述的問題一條insert語句導致的效能問題分析（一) 進行了進一步的補充。

使用SQL來分析資料庫引數（二)（r10筆記第82天）

拖延症的我終於接下來第二篇資料庫引數的分析。資料庫的引數分析一直以來是調優中的重要一環，而感覺有時候卻感覺找不到一些方法，我分析了一下，還是蠻有意思。資料庫的引數分析基於下面的幾個環境。

記一次資料庫的分析和優化建議(r6筆記第24天)

資料庫級資訊

記憶體元件的使用情況

其它記憶體元件的大小

鎖和事務情況

Redo日誌切換頻率

表空間使用情況

使用者資源使用情況

近一週的資料庫負載圖表

針對兩個不同時段的效能抖動進行分析。

第一個效能抖動最劇烈的時間段，是在8月8日凌晨

效能問題分析：

第二個效能抖動時間點的分析

效能問題分析：

改進建議：

開啟非同步IO

後臺Job的排程

SGA元件的調整

相關推薦