1. 程式人生 > >SQL Server數據庫告警改進

SQL Server數據庫告警改進

sys.messages alert

考慮對生產環境所有SQL Server服務器開啟數據庫郵件功能,它是數據庫自帶的郵件發送功能,通過配置到郵件服務器的訪問,及時接收SQL Server事件告警。

技術分享圖片


SQL Server警報是基於引擎的事件通知機制發送告警,當事件發生時出發告警通知。

技術分享圖片

現階段,需要收集如下兩類SQL Server事件告警:

  • Severity - 事件嚴重性級別1325告警;
    技術分享圖片

  • Error Number - 包括操作系統錯誤、IO錯誤、內存錯誤、AlwaysOn狀態相關告警。
    技術分享圖片


策略調整


我們考慮將這些需要監控的告警整合到應用程序日誌,接入ELK日誌分析系統。


我們了解到,在下列情況下,SQL Server 和 SQL Server 應用程序產生的錯誤/消息將發送到Windows 應用程序日誌:

  • 嚴重級別為 19 或更高的 sys.messages 錯誤

  • 任何使用 WITH LOG 語法調用的 RAISERROR 語句

  • 所有使用 sp_altermessage 修改或創建的 sys.messages 錯誤

  • 所有使用 xp_logevent 記錄的日誌事件

    引用自 https://docs.microsoft.com/en-us/sql/ssms/agent/create-an-alert-using-severity-level“Severity levels from 19 through 25 send a SQL Server message to the Microsoft Windows application log and trigger an alert. Events with severity levels less than 19 will trigger alerts only if you have used sp_altermessage, RAISERROR WITH LOG, or xp_logevent to force them to be written to the Windows application log. ”


針對上文提到、我們需要監控的Severity和Error Number告警,我們需要做如下變更調整:

  • Severity - 經過討論,不記錄嚴重級別19以下的用戶級別的錯誤,19級別及以上的Fatal Error默認記錄到應用程序日誌,我們不用做任何更改。

  • Error Number - 需要監控的錯誤,根據附件的查詢結果,部分錯誤號的is_event_logged字段為0,表示沒有記錄到應用程序日誌。可以通過上面的sp_altermessage修改該字段為1達到記錄到應用程序日誌的目的。



SQL Server數據庫告警改進