gc伺服器慢的原因分析 (r6筆記第14天)

阿新 • • 發佈：2022-05-04

在工作環境中有一臺gc的伺服器，已經好幾年沒有動過了，上面安裝著gc的服務和資料庫，也就說gc裡面的HttpServer，資料庫,webcache都在這臺伺服器上。

大家在訪問gc的時候，感覺有些時候訪問很慢，儘管是內網，但是還是有很大的延遲的感覺，大家認為可能是監控的機器比較多了，也就沒有在意，今天我抽空查看了下這臺機器，還是發現了一些問題。

首先看看gc的服務是否正常。我們也可以使用opmn來檢測。

$ ./opmnctl status 
Processes in Instance: EnterpriseManager0.cyoumon.cyou.com 
-------------------+--------------------+---------+--------- 
ias-component      | process-type       |     pid | status  
-------------------+--------------------+---------+--------- 
DSA                | DSA                |     N/A | Down    
HTTP_Server        | HTTP_Server        |   20850 | Alive   
LogLoader          | logloaderd         |   29381 | Alive   
dcm-daemon         | dcm-daemon         |   29428 | Alive   
OC4J               | home               |   20851 | Alive   
OC4J               | OC4J_EMPROV        |   20852 | Alive   
OC4J               | OC4J_EM            |   20853 | Alive   
OC4J               | OCMRepeater        |   20855 | Alive   
WebCache           | WebCache           |   20863 | Alive   
WebCache           | WebCacheAdmin      |   20857 | Alive

這也就是例行檢查，如果服務有問題，就不只是卡了。不過還是看了下，簡單驗證一下。

然後就是檢視系統的情況

檢視系統，我分為以下幾個部分來看。

首先檢視系統版本，發現這是一個比較老的版本，還是redhat 4

$ cat /etc/issue 
Red Hat Enterprise Linux AS release 4 (Nahant Update 8) 
Kernel r on an m

檢視CPU的資訊如下:

有8個物理CPU,8個邏輯CPU，CPU算是比較老的配置

$ ksh cpuinfo.sh 
************************************** 
CPU Physical NO:  8 
CPU Processor NO:  8 
CPU Core NO:  cpu cores : 1 
CPU model name : Intel(R) Xeon(R) CPU E5504 @ 2.00GHz 
**************************************

這個配置在現在看來還是比較緊俏的。

但是這個肯定不是最根本的原因，不能一有問題就全部歸結在硬體上，這個也是硬傷，不會說改進就改進，畢竟很多服務跑了很多年了。

我們來看看系統的負載

這個時候還是使用傳統的top

可以看到還是存在大量的swap現象,

top - 14:07:46 up xxxx days, 19:18,  4 users,  load average: 0.05, 0.16, 0.12 
Tasks: 175 total,   1 running, 174 sleeping,   0 stopped,   0 zombie 
Cpu(s):  0.7% us,  0.1% sy,  0.0% ni, 98.7% id,  0.5% wa,  0.0% hi,  0.0% si 
Mem:  16430320k total, 16375716k used,    54604k free,     9680k buffers 
Swap:  8385920k total,  3468324k used,  4917596k free,  4501616k cached

使用vmstat檢視swap的情況

$ vmstat 1 5
procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu---- 
  r  b   swpd   free   buff  cache   si   so    bi    bo   in    cs us sy id wa 
 0  0 3483652  50404   4896 4480752   14    4    48    42    0     0  1  0 99  0 
 0  0 3483652  51260   4936 4480712    0    0     0   332 1062  2594  0  0 100  0 
 0  0 3483652  52108   4936 4480712    0    0     0     0 1004  2565  0  0 100  0 
 0  0 3483652  52116   4936 4480712    0    0     0     0 1005  2468  0  0 100  0 
 0  0 3483652  55988   4940 4480776    0    0    16    92 1119  2705  0  0 99  0

可以從中看出很明顯的swap,大概是3G的樣子

如果這個時候來看系統的整體負載，還是使用sar,可以看到idle基本都在99%左右，所以說盡管在這樣的情況下，還是存在問題，CPU儘管配置不高，但是利用率也確實不高。

$ sar 
07:40:01 AM       CPU     %user     %nice   %system   %iowait     %idle 
07:50:01 AM       all      0.49      0.00      0.10      0.08     99.33 
08:00:01 AM       all      0.63      0.00      0.12      0.16     99.09 
08:10:01 AM       all      0.60      0.00      0.13      0.40     98.87 
08:20:01 AM       all      0.62      0.00      0.11      0.12     99.15 
08:30:01 AM       all      0.65      0.00      0.11      0.11     99.12 
08:40:01 AM       all      0.49      0.00      0.10      0.09     99.32 
08:50:01 AM       all      0.48      0.00      0.13      0.29     99.09 
09:00:01 AM       all      0.54      0.00      0.10      0.07     99.30 
09:10:01 AM       all      0.67      0.00      0.14      0.35     98.84 
09:20:02 AM       all      0.66      0.00      0.13      0.28     98.92 
09:30:01 AM       all      0.66      0.00      0.12      0.13     99.10 
09:40:01 AM       all      0.61      0.00      0.11      0.14     99.14 
09:50:02 AM       all      0.50      0.00      0.13      0.25     99.12 
10:00:01 AM       all      0.55      0.00      0.11      0.19     99.15 
10:10:01 AM       all      0.59      0.00      0.13      0.31     98.98 
10:20:01 AM       all      0.64      0.00      0.16      0.65     98.55 
10:30:01 AM       all      0.79      0.00      0.19      0.76     98.26 
10:40:01 AM       all      0.70      0.00      0.15      0.43     98.72 
10:50:01 AM       all      0.62      0.00      0.13      0.12     99.13 
11:00:01 AM       all      0.87      0.00      0.18      0.86     98.09 
11:10:01 AM       all      0.88      0.00      0.29      1.04     97.79 
11:20:01 AM       all      0.81      0.00      0.28      0.94     97.96 
11:30:01 AM       all      0.87      0.00      0.18      0.50     98.45 
11:40:02 AM       all      0.66      0.00      0.14      0.32     98.88 
11:50:01 AM       all      0.78      0.00      0.66      0.75     97.81 
Average:          all      0.69      0.00      0.17      0.53     98.61

檢視核心引數，發現Memlock還是最低的預設值32，這個時候可以嘗試修改memlock

oracle              soft    memlock    unlimited 
oracle              hard    memlock    unlimited

檢視核心中配置了Hugepage，但是實際來看，還是沒有使用到。

$ cat /proc/meminfo | grep -i page 
PageTables:     387504 kB 
HugePages_Total:  5121 
HugePages_Free:   5121 
Hugepagesize:     2048 kB

可以使用Oracle提供的指令碼來檢視Hugepage的推薦配置。

$ ./hugepage_setting.sh 
Recommended setting: vm.nr_hugepages = 3075

系統級的檢查大體就是這些，我們來看看資料庫級的情況

查看了session總數載50個左右，還是使用率不高，歸檔一兩個小時切一次，資料庫層面沒有發現任何的阻塞和鎖等待。

同時檢視資料庫的負載，都是一個很低的值。

這個時候發現有很多的歷史日誌，

但是在部分日誌目錄下存在大量日誌檔案，ls不可用

比如在adump目錄下，使用ls的時候都會出錯。

[/adump]$ ll *.aud|wc -l 
bash: /bin/ls: Argument list too long 
0

原來下面有不少的檔案，但是都是好幾年前的了。

$ ll |wc -l 
32468

其它幾個目錄下也都有類似的問題，所以這類問題也是一個因素，可以根據條件進行過濾，刪除掉很早的日誌檔案。

所以綜上所述，整體的分析結論如下：

資料庫的硬體資源比較舊，系統是RHEL4，CPU資源相對比較緊俏

系統的負載不高，但是有swap的爭用，可以通過調整memlock進行改進

資料庫hugepage沒有生效，配置large page或者Hugepage

資料庫級session使用率不高，資料庫負載也不高。沒有發現相關的鎖等待，資料庫級沒有發現明顯問題

在日誌目錄中發現了大量的歷史日誌，可以根據條件進行刪減。

gc伺服器慢的原因分析 (r6筆記第14天)

在工作環境中有一臺gc的伺服器，已經好幾年沒有動過了，上面安裝著gc的服務和資料庫，也就說gc裡面的HttpServer，資料庫,webcache都在這臺伺服器上。

同樣的sql執行結果不同的原因分析 (r4筆記第27天)

今天開發的同事問我一個問題，說有一個sql語句，在weblogic的日誌中執行沒有結果，但是手動拷貝資料到客戶端執行，卻能夠查到。這種奇怪的問題一下子就能引起我的好奇心，從我知道的原因來看啊，可能是存在不可見字元

一次資料庫宕機問題的分析(r6筆記第5天)

今天來到辦公室，發現有一臺伺服器中的資料庫例項停掉了。這種情況真是意料之外，尤其是我還不是很熟悉這臺機器的服務。

ORA-01113問題的簡單分析(r6筆記第3天)

在啟動資料庫的時候,open階段總是可能出現各種各樣的問題，比如讓人膽戰心驚的錯誤。

alert日誌中的兩種ORA錯誤分析(r6筆記第21天)

今天在巡檢系統的時候，發現alert日誌中有兩種型別的ora錯誤。 Errors in file/U01/app/oracle/diag/rdbms/XX/XX/trace/xxdb_j002_20401.trc:

緩慢的update語句效能分析(r6筆記第61天)

最近處理一個問題的時候，先是收到DB time升高的報警，然後檢視DB time的情況發現，已經有近1000%的負載了。

system表空間不足的問題分析(r6筆記第66天)

很多事情見多了也就有了麻木的感覺，報警簡訊就是如此，每天總能收到不少的報警簡訊，可能很多時候就掃一眼，如果沒有嚴重的問題自己是不會情願開啟電腦處理的。

一則orabbix報警的分析(r6筆記第65天)

最近使用zabbix監控之後，都會在凌晨收到1臺數據庫伺服器的報警簡訊，報警的內容為: No data received from Orabbix

三封報警郵件的分析(r6筆記第95天)

今天收到3封報警郵件，從郵件內容中的報警情況來看，還是比較反常的。需要引起關注，找到原因處理。

11g備庫無法開啟ADG的原因分析 (r7筆記第62天)

今天碰到一個有些奇怪的問題，但是奇怪的現象背後都是有本質的因果。下午在做一個環境的檢查時，發現備庫是在mount階段，這可是一個11gR2的庫，沒有ADG實在是太浪費了，對於這種情況感覺太不應該了。

ADG備庫批量查詢失敗的原因分析(r8筆記第33天)

目前線上有一套環境是10gR2的，採用了一主兩備的架構。在其中一個備庫上每天凌晨會開放一個視窗執行一些批量的查詢，目前使用dg broker會在指定的時間把備庫置為read-only,查詢完畢之後修改為online狀態。

增量資料丟失的原因分析(r8筆記第26天)

今天開發的同事找到我，讓我幫他們補一部分資料，因為有一個表的資料已經快一個月沒有增量資料了，這個需求聽起來有些奇怪是不？

關於delete,drop,truncate的問題 (r6筆記第14天)

有一個很常規的問題大量出現在筆試面試中，就是delete,truncate和drop的區別，當然這個問題我們也可以昇華一下，通過這個簡單的問題其實可以關聯到Oracle的一些特性。

記一次資料庫的分析和優化建議(r6筆記第24天)

資料庫的巡檢是DBA工作中的一部分，有時候我們還是希望能夠在巡檢的基礎上發現一些潛在的問題，把儘可能多的問題解決在初始階段。

通過定製orabbix監控分析潛在的Oracle問題 (r6筆記第32天)

在之前的部落格中分享過簡單定製Orabbix監控項http://blog.itpub.net/23718752/viewspace-1769773/

關於奇怪的並行程序分析(一) (r6筆記第41天)

在使用orabbix進行監控的時候，得益於使用實時DB time監控的選項，對於幾分鐘內的效能抖動也能夠狠容易的記錄下來，而且會把這個監控的結果基本真實反應出來，不會隨著兩個快照的間隔被平均，這樣效能問題的分析和排

大量redo生成的問題原因及改進(r6筆記第50天)

接著上次分享的關於資料庫無法登入的原因http://blog.itpub.net/23718752/viewspace-1791089/

關於奇怪的並行程序分析(三)(r6筆記第47天)

在前兩篇的基礎上，對於一個環境中存在的奇怪並行程序問題進行了初步的分析。

關於奇怪的並行程序分析(二) (r6筆記第46天)

前幾天的並行問題自己分析了下，也算有了一些進展，但是目前還沒有找到讓人信服的理由，有些讀者也比較關心這個問題，所以第二篇中會把自己的分析過程寫出來，第三篇中應該會對這個問題做一個了結。

兩條報警資訊的分析（第二篇)(r6筆記第71天)

還是繼續分析報警資訊的關聯，下面兩個看似沒有直接聯絡的報警資訊其實很有關聯。

gc伺服器慢的原因分析 (r6筆記第14天)

相關推薦