*一、檢查事件日志輸出
服務(wù)器事件日志中記錄著豐富的信息,尤其是細(xì)節(jié)問題。如果沒有仔細(xì)審查系統(tǒng)日志,惡意軟件日志和其他日志,服務(wù)器維護(hù)是不完整的。當(dāng)然,關(guān)鍵的系統(tǒng)問題應(yīng)該引起IT管理員和技術(shù)人員注意,但也有無數(shù)的非關(guān)鍵問題,可能是慢性或嚴(yán)重問題的信號(hào)。
如果你在維護(hù)服務(wù)器,那么請(qǐng)檢查報(bào)告設(shè)置,并驗(yàn)證告警與告警接收人地址正確。例如,如果某個(gè)技術(shù)人員離開服務(wù)器組,你需要更新服務(wù)器的報(bào)告系統(tǒng)。雙重檢查聯(lián)系名單和聯(lián)系方式也很重要,僅僅將關(guān)鍵錯(cuò)誤報(bào)告發(fā)送到技術(shù)人員公司電子郵箱地址是完全不夠的,需要確保其在非工作時(shí)間也能聯(lián)系的上。
要積極主動(dòng)的分析日志數(shù)據(jù)。當(dāng)日志檢查發(fā)現(xiàn)慢性或反復(fù)出現(xiàn)的問題,積極主動(dòng)的尋找解決這個(gè)問題的方案,避免問題升級(jí)。例如,如果服務(wù)器日志顯示一些內(nèi)存模塊的可恢復(fù)報(bào)告,那么不會(huì)觸發(fā)嚴(yán)重告警。但報(bào)告說明了某個(gè)模塊的問題,IT人員可以進(jìn)行更詳細(xì)的診斷程序以識(shí)別即將發(fā)生的故障。
如果問題影響輕微,無須關(guān)閉服務(wù)器,那么它可以返回到線上繼續(xù)服務(wù),直至需要更換硬件的時(shí)候。
第二、檢查本地硬盤
許多服務(wù)器依賴內(nèi)部硬盤,用于承載工作量和存儲(chǔ),保存用戶數(shù)據(jù)以及其他功能。硬盤介質(zhì)出現(xiàn)問題會(huì)嚴(yán)重影響負(fù)載性能和穩(wěn)定性,*終會(huì)導(dǎo)致硬盤故障。
磁盤介質(zhì)是不完美的,常見問題包括壞道和碎片化。RAID可以比較穩(wěn)定地確保出現(xiàn)磁盤故障時(shí)數(shù)據(jù)穩(wěn)定與一致性,但更小型的服務(wù)器,如1U的機(jī)架式服務(wù)器可能無法提供足夠的空間來實(shí)施RAID。使用如CHKDSK(Check Disk)這樣的工具來檢查硬盤完整性,還可以嘗試修復(fù)其中損壞的扇區(qū)。Windows Server 2012*新版的CHKDSK可以快速分析并修復(fù)文件系統(tǒng)結(jié)構(gòu)的磁盤問題。
磁盤碎片不會(huì)消失,只要使用NFS并且文件分配表或FAT,文件系統(tǒng)會(huì)使用*個(gè)可用集群的磁盤空間。碎片可能會(huì)降低服務(wù)器磁盤速度并引發(fā)故障。諸如Windows Server 2012自帶的卷組優(yōu)化工具,可以安排每個(gè)文件集群,并確保數(shù)據(jù)連續(xù)。
第三、定期安裝補(bǔ)丁與更新
服務(wù)器軟件棧——BIOS、操作系統(tǒng)、虛擬機(jī)管理程序、驅(qū)動(dòng)程序、應(yīng)用程序、支持工具——必須確保所有互動(dòng)與協(xié)作。不幸的是,軟件代碼很少完美或沒有任何問題,所以此類軟件問題需要經(jīng)常通過修補(bǔ)或更新來修復(fù)錯(cuò)誤、提高安全性、簡(jiǎn)化操作性、提高性能等。
不是所有軟件都可以自動(dòng)更新,管理員需要確認(rèn)哪些補(bǔ)丁或升級(jí)包是必要的,然后評(píng)估和測(cè)試更新效果。如果更新包修復(fù)的是服務(wù)器不存在的問題,那么無須多此一舉冒這個(gè)險(xiǎn)。
軟件開發(fā)者無法測(cè)試到每個(gè)軟硬件兼容性以及補(bǔ)丁、更新的潛在問題, |