MySQL異常OOM排查

阿新 • • 發佈：2020-08-03

收到告警，提示mysql掛了，此時看監控，負載已經比較高，伺服器已經無法登入。看見監控此時的負載情況如下：

除了系統層面的監控還可以看到，mysql層面的監控已經斷圖，等負載降下來的時候mysql已經被oom，自動重啟了，從mysql錯誤日誌看到如下資訊：

2020-08-01T09:14:11.778918+08:00 0 [Note] InnoDB: page_cleaner: 1000ms intended loop took 4271ms. The settings might not be optimal. (flushed=386 and evicted=119, during the time.)

這基本上說明，資料庫收到的寫入過多，導致BufferPool充滿髒頁。這會觸發PageCleaner進行操作並清除髒頁。由於髒頁比平時多，因此PageCleaner清除緩衝區需要花費更多時間。

由於監控在負載異常高的這段時間msyql層面已經斷圖，看不到相關監控，那麼如何排查呢？那隻能從binlog入手了，好，那麼分析一下binlog，看有沒有大事務之類的。

mysqlbinlog mysql-bin.005298 | grep "GTID$(printf '\t')last_committed" -B 1  | egrep -E '^# at|^#20' | awk '{print $1,$2,$3}' | sed 's/server//' | sed 'N;s/\n/ /' | awk 'NR==1 {tmp=$1} NR>1 {print $4,$NF,($3-tmp);tmp=$3} 
' | sort -k 3 -n -r | head -n 20

可以看見再8:56:44左右，可以看見最大的一個事務在100M，這是比較大了。通過在該時間範圍內繼續解析binlog，發現有大範圍的更新資料。這不夠直觀，我們寫一段程式碼，把DML趨勢放入ES來分析一下，程式碼比較簡單，如下：

#!/usr/bin/python
#coding: utf8
""" 跟蹤一段時間內dml趨勢，用ES分析
Usage:
python dml2es.py | logstash -f /etc/logstash/conf.d/t_binlog.conf

"""
import json
import os
import 
 sys
import logging
from datetime import datetime
from pymysqlreplication import BinLogStreamReader
from pymysqlreplication.event import QueryEvent, RotateEvent
from pymysqlreplication.row_event import (
    WriteRowsEvent,
    UpdateRowsEvent,
    DeleteRowsEvent,
)

def init_log():
    # get root logger
    mylogger = logging.getLogger()
    mylogger.setLevel(logging.DEBUG)

    # create file handler and add formatter to handler
    verbose_log_file = "/tmp/%s.verbose.log" % (os.path.basename(sys.argv[0]))
    fh = logging.FileHandler(verbose_log_file)
    fh.setLevel(logging.DEBUG)
    fh.setFormatter(logging.Formatter(
        fmt="%(asctime)s %(filename)s:%(lineno)d %(levelname)s %(message)s",
        datefmt="%a %d %b %Y %H:%M:%S"
    ))

    # create stream handler and add formatter to handler
    sh = logging.StreamHandler(sys.stdout)
    sh.setLevel(logging.INFO)
    sh.setFormatter(logging.Formatter(
        fmt="%(asctime)s %(levelname)-8s %(message)s",
        datefmt="%H:%M:%S"
    ))

    # add two handler to logger
    mylogger.addHandler(fh)
    mylogger.addHandler(sh)
    return mylogger


if __name__ == "__main__":
    logger = init_log()
    mysql_settings = {
        'host': '127.0.0.1',
        'port': 3306,
        'user': 'xxx',
        'passwd': 'xxx'
    }

    binlog_file = 'mysql-bin.005298'
    start_position = 123
    stop_position = 1031510925

    # 不需要blocking
    stream = BinLogStreamReader(
        connection_settings = mysql_settings,
        server_id=9999,
        log_file=binlog_file,
        log_pos=start_position,
        resume_stream=True,
        blocking=False
    )

    for binlogevent in stream:
        data = {}
        if binlogevent.packet.log_pos >= stop_position:
            break

        # 當輸出 "@timestamp" : binlogevent.timestamp
        # 即 "@timestamp" => 1582624830
        # logstash 會有warning
        # [WARN ] 2020-02-25 18:00:31.313 [[main]<stdin] Event - Unrecognized @timestamp value type=class org.jruby.RubyFixnum
        # 所以需要進行下面的格式轉換
        # 使用 datetime.fromtimestamp 將解析為 當前作業系統時區的 datetime
        if isinstance(binlogevent, WriteRowsEvent):
            data = {
                "schema" : binlogevent.schema,
                "table" : binlogevent.table,
                "dmltype" : "insert",
                "@timestamp" :datetime.fromtimestamp(binlogevent.timestamp).strftime('%Y-%m-%dT%H:%M:%S') ,
            }
            print json.dumps(data)
        elif isinstance(binlogevent, DeleteRowsEvent):
            data = {
                "schema" : binlogevent.schema,
                "table" : binlogevent.table,
                "dmltype" : "delete",
                "@timestamp" :datetime.fromtimestamp(binlogevent.timestamp).strftime('%Y-%m-%dT%H:%M:%S') ,
            }
            print json.dumps(data)
        elif isinstance(binlogevent, UpdateRowsEvent):
            data = {
                "schema" : binlogevent.schema,
                "table" : binlogevent.table,
                "dmltype" : "update",
                "@timestamp" :datetime.fromtimestamp(binlogevent.timestamp).strftime('%Y-%m-%dT%H:%M:%S') ,
            }
            print json.dumps(data)
        elif isinstance(binlogevent, RotateEvent):
            if binlogevent.packet.log_pos <= 1655:
                logger.debug( u"next_binlog:" + binlogevent.next_binlog )

    stream.close()

View Code

我們在kibana裡面把時間縮短到秒級看看這段時間的DML趨勢

可以看見和我們直接分析binlog得到的結果一致，就是這個時間點大量的更新。

MySQL異常OOM排查

收到告警，提示mysql掛了，此時看監控，負載已經比較高，伺服器已經無法登入。看見監控此時的負載情況如下：

一次神奇的MySQL死鎖排查記錄

背景說起Mysql死鎖，之前寫過一次有關Mysql加鎖的基本介紹，對於一些基本的Mysql鎖或者死鎖都有一個簡單的認識，可以看下這篇文章為什麼開發人員需要了解資料庫鎖。有了上面的經驗之後，本以為對於死鎖都能手到擒來

MySQL DeadLock故障排查全過程記錄

【作者】劉博：攜程技術保障中心資料庫高階經理，主要關注Sql server和Mysql的運維和故障處理。

Kubernetes Pod OOM 排查日記

一、發現問題在一次系統上線後，我們發現某幾個節點在長時間執行後會出現記憶體持續飆升的問題，導致的結果就是Kubernetes叢集的這個節點會把所在的Pod進行驅逐OOM；如果排程到同樣問題的節點上，也會出現Pod一直起

Kubernetes Pod OOM 排查日記（轉載）

一、發現問題# 在一次系統上線後，我們發現某幾個節點在長時間執行後會出現記憶體持續飆升的問題，導致的結果就是Kubernetes叢集的這個節點會把所在的Pod進行驅逐OOM；如果排程到同樣問題的節點上，也會出現Pod一直起

網路問題，導致連線容器 mysql 異常

背景今天介面新增引數，想debug下，執行直接，500異常，發現是 mysql導致。 [2020-08-11 10:52:10,428] [ERROR] [1Sbq2ZvQpY4w534jNldTJI40ht0Dh42U] com.zaxxer.hikari.pool.HikariPool - HikariPool-1 - Exceptio

c3p0 配置連線MySQL異常：java.sql.SQLException: Connections could not be acquired from the underlying database!

在Idea上配置c3p0連線MySQL時報如下錯誤：警告: com.mchange.v2.resourcepool.BasicResourcePool$AcquireTask@4e745ea8 -- Acquisition Attempt Failed!!! Clearing pending acquires. While trying to acquire a n

轉 Mysql show processlist 排查問題

https://www.cnblogs.com/duhuo/p/5678286.html 感謝都市煙火 Mysql show processlist 排查問題一、命令概述：

jdbc--Mysql異常問題總結

1、java.sql.SQLException: Before start of result set 這個 SQL 異常引起異常的原因是因為之前沒有***.next()方法; 當第一次執行***.next()的時候遊標位置在表的第一個位置，也就是說處於一個空的位置但

<p>常見的 MySQL 異常及處理方法</p>

在使用 MySQL 的過程中，我們會碰到各種各樣的問題，如資料庫突然響應很慢、表碎片空間佔比過大等。本小節我們一起來學習一些常見的 MySQL 異常，以及響應的處理方法。

java.net.SocketException: Broken pipe (Write failed) /413 Request Entity Too Large 異常問題排查

技術標籤：常見異常集合https @[TOC](java.net.SocketException: Broken pipe (Write failed) /413 Request Entity Too Large 異常問題排查)

連線MySQL異常：The server time zone value '???ú±ê×??±??' is unrecognized or represents more than one time

轉自：https://blog.csdn.net/qq_40891588/article/details/85052923 連線MySQL異常：The server time zone value ‘???ú±ê×??±??’ is unrecognized or represents more than one time zone. You must configu