運維定位服務故障時，前5分鐘都在忙啥？

阿新 • • 發佈：2019-01-05

運維定位服務故障時，前5分鐘都在忙啥？

遇到伺服器故障，問題出現的原因很少可以一下就想到。我們基本上都會從以下步驟入手，這些也是絕大多數運維工程師在定位故障時前幾分鐘的主要排查點：

一、儘可能搞清楚問題的前因後果

不要一下子就扎到伺服器前面，你需要先搞明白對這臺伺服器有多少已知的情況，還有故障的具體情況。不然你很可能就是在無的放矢。

必須搞清楚的問題有：

故障的表現是什麼？無響應？報錯？
故障是什麼時候發現的？
故障是否可重現？
有沒有出現的規律（比如每小時出現一次）
最後一次對整個平臺進行更新的內容是什麼（程式碼、伺服器等）？
故障影響的特定使用者群是什麼樣的(已登入的, 退出的, 某個地域的…)?
基礎架構（物理的、邏輯的）的文件是否能找到?
是否有監控平臺可用? （比如Munin、Zabbix、 Nagios、 New Relic… 什麼都可以）
是否有日誌可以檢視?. （比如Loggly、Airbrake、 Graylog…）

最後兩個是最方便的資訊來源，不過別抱太大希望，基本上它們都不會有。只能再繼續摸索了。

二、有誰在?

$ w

$ last

用這兩個命令看看都有誰線上，有哪些使用者訪問過。這不是什麼關鍵步驟，不過最好別在其他使用者正幹活的時候來除錯系統。有道是一山不容二虎嘛。（ne cook in the kitchen is enough.）

三、之前發生了什麼?

$ history

檢視一下之前伺服器上執行過的命令。看一下總是沒錯的，加上前面看的誰登入過的資訊，應該有點用。另外作為admin要注意，不要利用自己的許可權去侵犯別人的隱私哦。

到這裡先提醒一下，等會你可能會需要更新 HISTTIMEFORMAT 環境變數來顯示這些命令被執行的時間。對要不然光看到一堆不知道啥時候執行的命令，同樣會令人抓狂的。

四、現在在執行的程序是啥?

$ pstree -a

$ ps aux

這都是檢視現有程序的。 ps aux 的結果比較雜亂， pstree -a 的結果比較簡單明瞭，可以看到正在執行的程序及相關使用者。

五、監聽的網路服務

$ netstat -ntlp

$ netstat -nulp

$ netstat -nxlp

我一般都分開執行這三個命令，不想一下子看到列出一大堆所有的服務。netstat -nalp倒也可以。不過我絕不會用 numeric 選項（鄙人一點淺薄的看法：IP 地址看起來更方便）。

找到所有正在執行的服務，檢查它們是否應該執行。檢視各個監聽埠。在netstat顯示的服務列表中的PID 和 ps aux 程序列表中的是一樣的。

如果伺服器上有好幾個Java或者Erlang什麼的程序在同時執行，能夠按PID分別找到每個程序就很重要了。

通常我們建議每臺伺服器上執行的服務少一點，必要時可以增加伺服器。如果你看到一臺伺服器上有三四十個監聽埠開著，那還是做個記錄，回頭有空的時候清理一下，重新組織一下伺服器。

六、CPU 和記憶體

$ free -m

$ uptime

$ top

$ htop

注意以下問題:

還有空餘的記憶體嗎? 伺服器是否正在記憶體和硬碟之間進行swap?
還有剩餘的CPU嗎? 伺服器是幾核的? 是否有某些CPU核負載過多了?
伺服器最大的負載來自什麼地方? 平均負載是多少?

七、硬體

$ lspci

$ dmidecode

$ ethtool

有很多伺服器還是裸機狀態，可以看一下：

找到RAID 卡 (是否帶BBU備用電池?)、 CPU、空餘的記憶體插槽。根據這些情況可以大致瞭解硬體問題的來源和效能改進的辦法。
網絡卡是否設定好? 是否正執行在半雙工狀態? 速度是10MBps? 有沒有 TX/RX 報錯?

八、IO 效能

$ iostat -kx 2

$ vmstat 2 10

$ mpstat 2 10

$ dstat --top-io --top-bio

這些命令對於除錯後端效能非常有用。

檢查磁碟使用量：伺服器硬碟是否已滿?
是否開啟了swap交換模式 (si/so)?
CPU被誰佔用：系統程序? 使用者程序? 虛擬機器?
dstat 是我的最愛。用它可以看到誰在進行 IO：是不是MySQL吃掉了所有的系統資源? 還是你的PHP程序?

九、掛載點和檔案系統

$ mount

$ cat /etc/fstab

$ vgs

$ pvs

$ lvs

$ df -h

$ lsof +D / /* beware not to kill your box */

一共掛載了多少檔案系統?
有沒有某個服務專用的檔案系統? (比如MySQL?)
檔案系統的掛載選項是什麼： noatime? default? 有沒有檔案系統被重新掛載為只讀模式了？
磁碟空間是否還有剩餘?
是否有大檔案被刪除但沒有清空?
如果磁碟空間有問題，你是否還有空間來擴充套件一個分割槽？

十、系統日誌和核心訊息

$ dmesg

$ less /var/log/messages

$ less /var/log/secure

$ less /var/log/auth

檢視錯誤和警告訊息，比如看看是不是很多關於連線數過多導致？
看看是否有硬體錯誤或檔案系統錯誤?
分析是否能將這些錯誤事件和前面發現的疑點進行時間上的比對。

十一、應用系統日誌

這裡邊可分析的東西就多了, 不過恐怕你作為運維人員是沒功夫去仔細研究它的。關注那些明顯的問題，比如在一個典型的LAMP（Linux+Apache+Mysql+Perl）應用環境裡:

Apache & Nginx; 查詢訪問和錯誤日誌, 直接找 5xx 錯誤, 再看看是否有 limit_zone錯誤。
MySQL; 在mysql.log找錯誤訊息，看看有沒有結構損壞的表，是否有innodb修復程序在執行，是否有disk/index/query 問題.
PHP-FPM; 如果設定了 php-slow 日誌, 直接找錯誤資訊 (php, mysql, memcache, …)，如果沒設定，趕緊設定。
Varnish; 在varnishlog 和 varnishstat 裡, 檢查 hit/miss比. 看看配置資訊裡是否遺漏了什麼規則，使終端使用者可以直接攻擊你的後端？
HA-Proxy; 後端的狀況如何？健康狀況檢查是否成功？是前端還是後端的佇列大小達到最大值了？

結論

經過這5分鐘之後，你應該對如下情況比較清楚了：

在伺服器上執行的都是些啥？
這個故障看起來是和 IO/硬體/網路或者系統配置 (有問題的程式碼、系統核心調優, …)相關。
這個故障是否有你熟悉的一些特徵？比如對資料庫索引使用不當，或者太多的apache後臺程序。

轉載自：http://mp.weixin.qq.com/s?__biz=MzAwMDM2NzUxMg==&mid=2247487091&idx=1&sn=aca23a70b0aee7dc0639a4dfc0e3e3fc&chksm=9aeb4084ad9cc9927ac2bea70abd32b3d2ca3026ef5c5fa60dadd7c4b1d6c35130be420ecc4e&mpshare=1&scene=1&srcid=0820PPcRvlb1uZJkO6UEOFk9#rd

運維定位服務故障時，前5分鐘都在忙啥？

&nbs

當運維人不再青年時，我們該何去何從？

今天是五四青年節，首先祝廣大運維人節日快樂~ 什麼是青年？哪個年齡段是青年？小編我還真花時間查閱了一番： 1）國際組織對青年的界定：聯合國:15-24歲的人為青年。世界衛生組織：14-44歲的人為青年。聯合國教科文組織：14-34歲的人為青年。 2）我國對青年的界定：國家統計局：15

運維學習 unit 7 程序，系統服務，遠端訪問

###程序### 1程序是系統未完成正在進行的任務 2檢視程序 1）圖形方式檢視 gnome-system-monitor 2）命令方式 ps -A ##所有程序 ps -a ##當前環境中執行的程序，不包含環境 ps -u ##顯示程序使用者資訊 ps

廣東IT運維外包服務，系統集成，機房維保

政府 dcom 出發點行業中心 its 運維 lead ITSS 廣東勵康專註於計算機信息系統運維服務，擁有豐富的IT技術服務及管理經驗。公司以客戶為中心，以安全穩定、合作共贏為出發點，以ITSS服務標準及ITIL實踐等先進的服務管理理念為基礎，構建一站式服務。業務涵蓋

【運維】記一次上線前的緊急定位與修復-獻上九條小經驗

1 簡介本文介紹了作者所在團隊在某次上線前測試發現問題、定位問題並修復上線的過程，最後給出幾點經驗總結，希望對大家有用。 2 過程（1）今天需要上線，但昨晚才合併了所有分支，時間很緊迫。不幸的是，打包測試後發現有一個Springboot應用（模組R）啟動失敗，但程序沒有死，一直在輸出報錯日誌。（2）Go

Linux下運行Java項目時，出現No X11 DISPLAY variable was set, but this program performed an operation which requires it.的問題解決

per 出現 cnblogs -m performed program this exp code 在~/.bashrc環境變量文件最下方加入： export DISPLAY=:0.0 然後，刷新環境變量以使其生效： source ～/.bashrc

ios9定位服務的app進入後臺三分鐘收不到經緯度，應用被掛起問題及解決方式

sso 進入 ont use -c 大於 null 方案 cti 原來定位服務是10分鐘收不到定位信息就掛起定位，如今變為最短3分鐘，預計都是為了省電吧。僅僅要你開啟應用的後臺定位，而且10分鐘有一次定位，那麽蘋果就不會關閉你的線程。如今變成3分鐘。若你

Linux運維---DHCP服務器部署

DHCP 自動分配IP 動態分配自動獲取 DHCP協議 DHCP（Dynamips Host configuration Protocal）動態主機配置協議是一種基於UDP協議且僅限於在局域網內部使用的網絡協議，主要用於大型的局域網環境或者存在較多移動辦公設備的局域網環境中，其主要用途是用於

調用外部服務器時，有異常就進行多次調用

進行 tac cep AR n) 成功 boolean alt 正常的調用外部服務的時候，由於網絡或者對方服務的問題導致調用不同，這時候就需要多次進行嘗試調用，但是最好不要無限制的調用，具體代碼如下： package com.cisp.file.test; publ

ECS運維神器重裝上陣，雲助手亮相控制臺

image reg open 們的摘要操作系統 ecs實例機器 cli 摘要：前段時間，我們的運維神器---阿裏雲雲助手，已經通過OpenAPI的形式發布給廣大用戶。近來，我們根據廣大用戶的反饋，對其進行了優化，改進，增加了控制臺的UI界面，使其變的更直觀，更易用。

多網卡進行綁定，不僅提高了寬帶的速率而且還讓其中一塊網卡出現故障時，不會讓網絡完全中斷

ont 多網卡依然支持 alt src 僅主機模式查看類型一、在電腦中添加一塊網卡(我是用虛擬機做實驗所以下面的步驟在虛擬機上操作) 第三步驟點擊"僅主機模式(H)"原因是需要保證兩塊網絡的類型都是相同的查看兩塊網卡的名稱：配置網卡的參數設置

伺服器運維常見的故障及其解決辦法

進入資訊時代，各種行業對資料的安全和技術要求也越來越高，,同時也遇到了各種各樣的伺服器故障問題,雖然能夠接到伺服器廠商的支援,但是往往耗時耗工，特別是有些不能夠立即判斷和解決的問題,造成了企業不必要的損失,下面是針對一些常見的伺服器故障現象和解決方法,以便更好的更快的進行故障處理和排查。 01 伺服器常見

filebeat 作為服務啟動時，傳輸一批資料後便停止工作 CRIT Unable to publish events to console

filebeat 作為服務啟動時，傳輸一批資料後便停止工作，日誌中輸出如下資訊： 2018-12-03T17:07:29+08:00 CRIT Unable to publish events to console: write /dev/stdout: The handle is inva

引以為鑑！某運維主管牟利 800 萬，結果令人唏噓…

在公安部“淨網2018”專項行動、北京市公安局“淨網護網2018”專項行動統一部署下，北京市公安局海淀分局堅持打防並舉，努力維護網上秩序，全力打擊黑客類犯罪，保護轄區內網際網路企業的合法權益。通過集合網偵和刑偵資源形成合力，發揮警種捆綁作戰的專業優勢，不斷深化網路犯罪打擊力度，迅速破獲一起離職員工

運維：nginx反向代理，配置域名解析到伺服器靜態專案

上線網站，由於還沒有寫後臺，用tomcat掛著很消耗記憶體，於是用nginx代理掛著連線伺服器的專案，簡單介紹域名解析到伺服器靜態專案一、購買域名（騰訊或者阿里購買，最便宜的是阿里的.top，2元一年）此處略二、購買伺服器最近的學生雲，騰訊1c2g、50g 50GSSD一年1

JavaWeb 服務啟動時，在後臺啟動載入一個類

兩種方法，一、監聽（Listener） 1、建立個監聽類,繼承ServletContextListener package tbp.common.xkins; import javax.servlet.ServletContextEvent; import net

證明你是壞運維的七個跡象，不要做CPR運維

大部分運維都有迷茫的階段幹上幾年運維，肯定感到迷惑和彷徨，因為運維是一個要求沉下心來了，不斷精益求精的職業，而當下的大背景是浮躁，運維不是小鮮肉，明顯是一個收益低，見效慢的職業。運維有沒有前途？論職位，在一般企業最高級別到中層；論收入，在任何企業肯定不會超過核心業務部門員工收入；論壓力，出

IT運維管理必備工具大全，看完還敢稱自己是高手嗎？

統一帳號管理你還在自己寫指令碼批量增加機器的使用者名稱、分組和修改密碼或者同步主機的/etc/passwd嗎?你還在使用指令碼批量對使用者設定許可權嗎?如果有一臺帳號主機能夠提供所有伺服器的帳號、密碼、許可權控制，如此一來，如果想要增加、修改、刪除使用者，只要到這臺伺服器上面處理即可，這樣是不是

IT運維管理呈現六大趨勢，其中大資料居首

為應對不斷變化的IT網路，Gartner釋出的2013年對眾多公司和組織機構具有戰略意義的十大技術與趨勢，關於IT運維管理的包含以下六大趨勢：趨勢1:支撐資料大集中管理 2013 年，大資料成為IT界最受關注的話題之一，大資料正在從專注於個別專案向對企業戰略資訊架構的影響上轉移，對資料量、種類、速

頂級運維峰會首登廣州，Gdevops嘉賓主題曝光

全球敏捷運維峰會（Gdevops）將於9月23日與你相約廣州！對！正是為你而來！百度、新浪、騰訊、唯品會、中國移動、平安科技、新炬網路、輕維軟體、沃趣等名企的IT大咖已經齊聚，此外，還有神祕嘉賓的面紗等待你一一揭開，將帶來一場架構、敏捷與運維的盛宴與狂歡。這一次，不負廣州ITer的翹首期盼，Gde

運維定位服務故障時，前5分鐘都在忙啥？