糯米文學吧

位置:首頁 > 計算機 > 計算機硬件

服務器常規維修與判斷方法

相比PC而言,服務器出故障的機率是小多了,但是它出故障造成的損失可也大多了。作為服務器維修人員需要了解一些服務器故障恢復的基本知識,知道在維修時可以做些什麼來最快速的解決問題也可以減少故障停機時間

服務器常規維修與判斷方法

本文並不是一本服務器故障解決的完全手冊,但如果能夠認真的按照下面的步驟維修維護,它也許可以解決大多數問題,但當你做完所有的這一切仍不管用時,不用慚愧,去找維修專家吧,可以放心的是,這些維修步驟不會出現大的損害,最壞的情形是“It does not work at all”。

本文主要分三部分,第一部分講的是服務器故障排除的基本原則性問題。第二部分講述了一些服務器硬件故障排除的實例。第三部分講述了一些服務器軟件故障排除的實例

  第一部分 服務器故障排除的基本原則性問題

一、服務器開機無顯示應怎麼辦

1.檢查供電環境,零-火;零-地電壓?

2.檢查電源指示燈,如果亮,正常嗎?

3.按下電源開關時,鍵盤上指示燈亮嗎?風扇全部轉動嗎?

4. 是否更換過顯示器,更換另一台顯示器。

5. 去掉增加內存

6. 去掉增加的CPU

7.去掉增加的第三方I/O卡

8. 檢查內存和CPU 插的是否牢靠

9. Clear CMOS

10. 更換主要備件,如系統板,內存和CPU

二、服務器故障排錯的基本原則是什麼

1. 儘量恢復系統缺省配置

a:硬件配置:去除第三方廠商備件和非標配備件;

b:資源配置:清除CMOS,恢復資源初始配置;

c: BIOS,F/W,驅動程序:升級最新的BIOS,F/W和相關驅動程序;

d: TPL:擴展的第三方的I/O卡屬於該機型的硬件兼容列表(TPL)嗎?

2. 從基本到複雜

a:系統上從個體到網絡:首先將存在故障的服務器獨立運行,待測試正常後再接入網絡運行,觀察故障現象變化並處理。

b:硬件上從最小系統到現實系統:指從可以運行的硬件開始逐步到現實系統為止。

c: 軟件上從基本系統到現實系統:指從基本操作系統開始逐步到現實系統為止。

3. 交換對比

a:在最大可能相同的條件下,交換操作簡單效果明顯的部件;

b: 交換NOS載體,既交換軟件環境;

c:交換硬件,既交換硬件環境;

d:交換整機,既交換整體環境;

三、服務器故障排除需要收集哪些信息?

服務器信息:

1.機器型號

2.機器序列號(S/N: 如:NC00075534)

版本

4.是否增加其它設備,如網卡,SCSI 卡,內存,CPU

5.硬盤如何配置,是否做陣列, 陣列級別

6.安裝什麼操作系統及版本(Winnt 4, Netware, Sco, others)

故障信息

1.在POST時,屏幕顯示的異常信息

2.服務器本身指示燈的狀態?

3. 報警聲和BEEP CODES

4. NOS的事件記錄文件?

5. Events Log 文件

確定故障類型和故障現象:

1. 開機無顯示;

2.上電自檢階段故障;

3. 安裝階段故障和現象;

4. 操作系統加載失敗;

5. 系統運行階段故障;

  第二部分 服務器硬件故障處理幾例

硬件故障是指服務器硬件出現異常而導致的各類錯誤。由於服務器構成比較複雜,因此在檢查的時候必須認真、仔細。下面以一台萬全4500為例説明。(例子,在實際問題中如果遇到相似現象,也需要具體問題具體分析,不要盲目套用)

有一台萬全4500,配有256M內存,使用一個PIII XEON 500帶2M高速緩存的處理器。開機後沒有任何顯示,但系統日誌上提示了一條CPU電壓為0伏的信息,系統指示燈三燈不停在閃爍(指示燈三燈閃爍是服務器的另一種報警方式,我會在文後説明)。這種錯誤一般是處理器電壓調節模塊(VRM)出錯或CPU出錯或CPU與CPU板塊接觸不良,但也可能是CPU板塊出錯,這時情況就比較複雜了,必須經過認真慎重的思考。因為CPU板塊在整個服務器中,佔有舉足輕重的地位,如果它出錯服務器是會報致命錯誤的,並且在系統日誌中會提示致命錯誤,但報CPU電壓錯的情況也有5%左右。我們立刻把CPU調換在另一CPU插槽中,開機後依然是剛才的那種故障。所以在初步判斷中,可以排除是CPU板塊壞。

這時,取出CPU仔細擦拭金手指,以及CPU板塊中與CPU接觸的地方後,開機依然無顯示。

相對處理器壞的情況來説處理器電壓模塊(VRM)出現故障的情況比較大。於是立即在另一台萬全4500中取下一個處理器電壓模塊,安裝在此服務器中。開機後,服務器依然沒有任何顯示,系統日誌上依然提示CPU電壓為0伏的信息,系統指示燈三燈依然不停在閃爍。這時的情況就比較明顯了。於是立即從另一台萬全4500中取下一個CPU安裝後,開機正常。

總結:

在服務器的維修中,線索都會顯得撲朔迷離,一般來説不可能一次就可以準確地判斷出問題的所在。這樣就要求相關人員要有信心及耐心。出現錯誤一般的流程是通過系統日誌上的信息來解決,如果沒有解決問題再找出其它因素,然後再看日誌信息。總之,服務器出錯後,必須一步一步解決,沒有捷徑可言。

又如:

有一台萬全4200開機不顯示,發現開機時系統日誌沒有任何信息,且系統指示燈不亮。初步判斷是電源方面出現了錯誤。經過仔細檢查,發現服務器的電源是正常的,因此最大的可能就是服務器的電源管理板出現故障。更換電源管理板後,開機顯示正常。但這時,新的問題來了:自檢時,用CTRL+M不能檢測到硬盤。

硬盤在別的服務器上是正常的,因此立即清除此服務器的CMOS,但依然不正常。立刻上網找到此服務器的最新BIOS,升級BIOS後也不能解決問題。又檢查硬盤籠子和服務器裏的數據線及電源線後依然出錯。這時,一般情況會懷疑是服務器的I/O板(輸入輸出板塊)有問題。但就在這個時候,我發現在I/O板上有一個非聯想的舊式網卡,立即去除此網卡後服務器就一切正常。

硬件故障並不單單指硬件有問題,它也指硬件之間不兼容。因為服務器的正常運作需要各部件之間的大力協調。建議大家在採購各元件時,都採用同一品牌原裝的,並且要採用能發揮服務器性能的元件(上例中的舊式網卡即使正常也會嚴重影響服務器性能),這樣才不會發生莫明其妙的故障。

還有一種情況:用户需要把他的萬全3200升級到雙網卡,我建議他購買原裝網卡,但當他看到萬全4500的網卡是採用的INTEL 82559芯片後,斷然決定不使用原裝網卡而採用另一品牌也採用INTEL 82559的網卡。過了幾天,他打電話給我説,他的新網卡不能使用網絡宂餘及數據校驗,並懷疑服務器有問題。維修工程師帶了一個INTEL 82559網卡到用户那裏,仔細檢查了服務器的環境完全正常後,把INTEL 82559網卡安裝到機器上後一切

正常。這個例子更加説明了,要發揮服務器的最大性能及功能,必須使用原品牌原裝的配件。非原品牌非原裝的配件,不能支持服務器的某些功能,嚴重的會影響到服務器的正常使用。

要避免硬件故障發生頻率,服務器管理人員必須注意服務器的使用環境完全正常。比較重要的服務器必須在恆温、恆濕的環境;電壓也要符合,不僅要採用UPS,還必須接地線,必須是左零線、右火線,零地電壓在1~3伏。在開、關服務器上必須符合正常的流程。工作人員必須嚴格執行操作流程。

一般情況來説,服務器維修人員對於硬件故障只要有豐富的經驗都能很快找出故障所在,如果不能解決就必須迅速與服務器的售後服務中心8008108888聯繫。

  第三部分 服務器常見軟故障解決思路與實例

服務器軟件故障是在服務器故障中佔有比例最高的部份,約佔70%,解決的過程必須更加深思熟慮。導致服務器出現軟件故障的原因有很多,最常見的是服務器BIOS版本太低、服務器的管理軟件或服務器的驅動程序有BUG、應用程序有衝突及人為造成的軟件故障。下面分別舉例説明各類軟件故障的維修方法。

有一台萬全3500服務器,配置為雙PIII 500帶521K高速緩存的CPU、512M內存。開機後,系統日誌報電壓調節模塊異常(VRM)的錯誤,報錯的信息是:“Voltage Regulator Module (VRM) over/under-voltage 2.88V/0V”。從表面來看,極有可能是服務器的電壓調節模塊或其它硬件出現故障,極容易導致維護人員認為是硬件故障。維護人員立刻使用其它萬全3500的硬件來測試,發現即使使用新的配件,此服務器依然報VRM錯。就在一籌莫展的時候,維修工程師帶來了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),於是升級了CPU管理板塊的FIRMWARE後,服務器恢復立即正常。FIRMWARE升級方法是, 1) 用軟盤啟動計算機,然後插入firmware軟盤並運行上面的相關文件cabrillo; 2) 系統刷新BMC(主板控制器)和HSC(熱插拔背板控制器);3) 然後系統詢問執行第幾個選項(通常為2); 4) 然後系統詢問服務器的電源配置(通常為2); 5) 如果回答有兩個電源,系統詢問服務器是否有輔助風扇——即在第三個電源(宂餘電源)的位置上 是否有風扇(通常為N); 6) 然後系統詢問是否重寫BMC kernel use area;(通常為N)然後系統詢問是否輸入一個asset tag; (通常為N) 7) 最後系統詢問在刷新後是否要重新啟動系統;(通常為Y)。這種升級方法也適合刷新系統BIOS等,命令的參數不同以及更新FIRMWARE及BIOS文件名不同,參數請參考服務器的説明。