Linux運維工程師的一天是如何度過的
下面先簡單介紹一下個人這幾年從事運維工作以來得出的感悟與體會
1.操作系統狀況檢查與告警
登錄系統或者通過監控報警平臺查看系統運轉的負載
磁盤空間狀態,內存使用狀態,有無報錯日記, 查看報警記錄等。
2.操作系統故障處理
根據檢查與監控的情況,對發現的系統故障進行處理,對己知故障進行預防方案部署,在日常運維中,還會有許多其他部分提出的問題返遺,比如客戶經驗會反應某某地區用戶訪問網站速度慢
像這種情況要結合南北線路,以及用戶的網絡環境等綜合因素進行處理。
3.服務器性能分析和優化
通過監控平臺 ,在一定數據庫基本的圖形分析下,對特定的業務通過圖形分析了解服務器壓力情況
比如磁盤IO,內存使用率,CPU使用率等進行定期分析和優化。
4.備份與備份數據檢查
數據庫備份和恢復,是運維日常操作中最常見的操作了,一般是寫計劃任務對數據進行備份
但是更重要的是需要對備份的數據定期進行檢查,計劃任務是否成功執行,數據庫份是否完整等。
5.緊急故障處理
服務器內存故障,硬盤故障,機房網絡故障,每天都在發生,通過這些情況影響大,會直接驚動上司甚至全公司的關註,並且處理周期也不一定是運維人員可控的,這就對運維提出更高的要求,對於這種情況,只能平時多做功課,做好冗余方案,鏡像方案,保證重要數據隨時都有兩份,出故障能馬上切換。
隨著運維工程師的職業越來越香,越來越多的人選擇它來開始自己的職業生涯。
那麽你想不想深入了解運維工程師的生活?他們的一天是怎麽度過的?
下面讓我們來看看大小牛們的自述。
陳湛翀,從事運維工作
在我面試了一些運維職位的同學以後,我覺得在中國很大一部分運維的同學都是每天過著我以下要提到的,我最不喜歡的最典型的一天。
我最不喜歡的一天:
早上一來到公司,就被一個跑過來的同事打斷:他有一個需求。其他的同事在IM、郵件和電話中也分別提出了他們的需求。沒辦法,只能默默地把這些需求記在todo list上。
剛坐下,臨時被拉去開一次會,同事說要怎樣怎樣協助他。
剛回來,發現10分鐘後有一個面試。
面試回來,發現10分鐘後有一個計劃中的會議。
會議回來,產品功能測試完畢,要協助上線操作。
上線過程沒有標準化,生產環境出錯,緊急回滾。
抓來這次上線相關人員,討論為何會出現這樣的事故,日後如何規避。回來後,再次準備上線,這次上線過程全程跟進。
終於正常上線完成了。
噢,不。只是功能上線完成,原來還有一個很大的性能問題。繼續救火。
調整參數,性能調優,服務器負載終於下去了。
看一下時間,已經差不多是下班的時間了。
對著一直在增長的todo list,一臉的茫然。
以上略誇張,但是各種千奇百怪的中斷確實很可怕。各類中斷還有上下文切換的。很多人就這樣埋沒在中斷中了。個人認為一個運維最應該的一天工作時間安排:
20%的時間——處理緊急重要的事情。
80%的時間——開展重要不緊急的事情的工作。
緊急重要很容易理解,其實就是救火類工作。
重要不緊急的工作,才是最能體現運維的價值的工作。監控系統,這個是一個大話題。除了被動地監控各類服務的正常與否,還有主動開發各類協助系統分析的系統,並對整個系統的未來有規劃性。
性能調優是我最喜歡的一個方面。發現性能瓶頸和解決性能問題,我都很喜歡。
開發工具型系統是提高自己和團隊內所有人的工作效率的一種途徑,尤其是可以快速解決那些中斷的工具。
學習——這個是最重要的。運維涉及的知識面非常廣,不斷學習才能順利快速解決以上各類問題,不斷嘗試不斷經歷才有足夠的經驗遇神殺神,遇佛殺佛。
一天一天,做好重要不緊急的工作,才能令到運維工作更有效率、整個系統更穩定、未來的發展更具有預見性。
十力,淘寶運維工程師
正常的一天,8點半起床,9點半到公司開始一天的工作。
1)看看昨天的超時報表,看看那個系統超時比較多。
2)從監控圖中查查超時比較集中的機器、看看機器的基礎監控、硬件有沒有故障、有沒有人誤操作、有沒有人在沒有通知的情況下訪問引擎等。查到原因,和開發商議解決方案和deadline,回復郵件。
陳小生,網絡遊戲系統運維工程師
救火:突發性故障不可避免的會產生
中斷:產品、程序、QC誰都能找你,事情可能也是千奇百怪,無法一一道來
求知:你需要懂的內容可不少,包括為了“對付”上面的中斷
開發:各種協助運維的系統
補漏:已經BUG,可預見性的問題、缺陷
規劃:高預見性,大局觀
楊漸,擅長修電腦
幹了幾年運維,說說感受。
早上起來打開nagios,看到一串的報警,比如日誌空間不足80%,某個備份沒成功,某個計劃任務執行失敗,某個數據庫的索引建立失敗,等等等等….手動全部解決大約11點。
看看昨天值班的日誌,各種上線,各種下線,各種修修補補,nginx主配置裏增加了14行,8個配置文件;DNS配置增加N行;兩塊硬盤要換,一臺存儲機頭要換,已經下線在機房等DELL過來換。給IDC的同事打電話確認這些亂事…
.
開發和測試說某個項目的性能要提升到20W/小時(其實這個項目每日獨立ip沒超過200),編輯說讓我們給他們轉換幾萬個文章的UID,給三個部門的header寫郵件“不給項目加服務器、把轉uid的任務交給dba”,然後被vp交去辦公室說–要盡力配合其它部門,不能推來推去…….回去給值班的同事寫郵件說把某個項目加2臺服務器,怕被罵只能自己轉uid….這就一天結束了。
GNUer,挖坑磚家
while(1)
{
早上一般9點起床吧,折騰一下9點半到公司,一般吃著路邊買的餅,一邊看看kindle上訂閱的新聞,技術章。上午就自己搞搞興趣的東西,寫一些改進目前工作的腳本。接受一下開發測試的咨詢,幫他們搞一下研發環境的問題。下午事情比較集中,一邊開會一邊處理一些線上的問題,基本自己都是同時起三個以上的線上,自己的大腦不是超線程的,但是一般確實得同時搞N件事情。
到了下班時間事情還有一堆,晚上繼續搞搞,每天都想早點下班,每當你準備走的時候郵件、IM和電話又來一堆。。。
回到家,上上網,看看文檔,看看OS、TCP/IP等等基礎的名著陶冶一下情操,搞到12點,睡覺。
}
李振宇,運維/阿裏巴巴
受邀簡單講講:
1. 處理報警,查看報警的原因,和開發一起解決,並且盡量找出避免再次發生的方法,例如添加一些定時清理腳本
2. 處理發布,基本都是自動化,但是總有發布不成功或者需要回滾的時候,這時候就需要手工介入,找到原因,並跟開發一起討論最後是否撤銷還是重上
3. 日常一起能夠自動化的工作盡量找到自動化的方法
4. 會啟動一些和運維相關的項目,所以有時候也兼職項目開發
5. 學習,看看新聞,學習資料等等。
Gucci Koo,軟件工程師
個人標準,不能開發自動化運維的運維不是好運維,不能救火的運維不合格。
aiirii wong
1,等待監控系統報警
2,核心系統巡檢,備份系統備份任務完成情況巡檢
3,等待用戶報障
4,例行任務計劃攥寫,例行任務執行,比如新開用戶,存儲擴容等;
5,項目性的工作,比如新購存儲,新的監控系統,新的操作系統,應用系統驗證
6,學習新知識,看技術文檔或者公司的各種通知
7,和不同供應商(工程師),內部人員開會
程可可,運維攻城師一枚,小彩筆
看看服務器日誌,我們這邊服務器老是宕機,原因層出不窮,然後QA、PO會有一堆問題問你,讓你看看是怎麽回事兒。期間會有各種會議,需要你坐在那兒聆聽。最大的一部分工作就是自動化運維工具的開發。趕上版本發布,尤其坑爹,各種不休息…
顧保羅
看報紙、喝茶、看手機——因為都說Linux不會死機。
Linux運維工程師的一天是如何度過的