Server Troubleshooting

Home » Server-FAQ » Server Troubleshooting
Server-FAQ, Server-Hardware Keine Kommentare

Das Troubleshooting, also das Lösung von Problemstellungen im Server-Bereich, kann sich ohne das entsprechende knowhow als langwierig und komplex herrausstelen. Aus diesem Grund gehen wir in diesem Artikel auf die häufigsten Herrausforderungen ein und erläutern, wie Sie Ihren Server bei einem vermeintlichen Defekt schnell wieder in Betrieb nehmen können. Fehlt Ihnen die Zeit oder ist das Problem alzu hartnäckig, unterstützen wir Sie als kompetenter Systemhaus-Partner auch gerne persöhnlich am Telefon oder vor Ort.

 

unbestimmte / unbekannte Probleme

Tut ein Server mal nicht, was er soll, gillt es zuerst einmal herrauszufinden, wo der vermeintliche Fehler zu finden ist. Unsere Erfahrungen in der Server-Fertigung zeigen, dass es sich nur selten um „echte“ Server-Defekte, also um eine defekte Server-Hardware-Komponente handelt. Wesentlich öfter sehen wird in der Serfer-Fertigung und beim Support bei unseren Kunden vor Ort Konfiguratios-Fehler oder schlicht „sonstige undokumentierte Zustände“, bei denen es sich jedoch nicht um einen Defekt der Hardware handelt. Letztere können beispielsweise aufgrund einer veralteten Firmware auftreten, aber auch andere Ursachen haben.

 

vorbereitende Maßnahmen

Bevor Sie beginnen, sollten Sie sich noch das Handbuch zu Ihrem Server bereit legen – Sie werden es brauchen. Für viele Prüfungen ist professionelles Handwerkszeug hilfreich, für manche unerlässlich. Zur Diagnose und Behebung des vermeintlichen Fehlers ist es nicht unbedingt erforderlich das Server-Gehäuse zu öffnen – sollte es aber erforderlich werden ist unbedingt ein Erdungsarmband anzulegen um die empfindlichen elektronischen Komponenten nicht zu beschädigen..Wissen sollte man, dass auch im ausgeschalteten Zustand moderne Server mit Strom versorgt werden, um zumindest den BMC zu betreiben und den Server über IPMI erreichbar zu machen. Es ist also erforderlich den betreffenden Server komplett vom Strom und vom Netzwerk zu trennen, bevor das Server-Gehäuse geöffnet wird.

Gehen Sie strukturiert vor und notieren Sie Ihren Fortschritt – bei einfachen Fehlern macht das nur wenig Arbeit. Sollte sich der Fall als Komplex herrausstellen, werden Ihre Notizen jedoch sehr hilfreich sein. Kommen Sie an einer Stelle nicht weiter und benötigen professionelle Server-Beratung ? Wir stehen Ihnen gerne unterstützend und beratend zur Seite.

 

Intel Troubleshooting Wizzard

Für eine grundlegende und schnelle Diagnose können Sie auch den von Intel zur Verfügung gestellten Server Troubleshooting Wizzard verwenden. Ziehen Sie zusätzlich zum Guide unbedingt das Handbuch zu Ihrem Server-Mainboard zu Rate, da im Wizzard nicht jede Feinheit einzelner Intel-Server-Mainboards aufgegriffen wurde.

 

Der Server lässt sich nicht anschalten / es sind keine leuchtenden LEDs zu erkennen

Prüfen Sie zuerst die grundlegende Stromversorgung – liegt am Kaltgerätekabel überhaupt bzw. genügend Strom an (ist der Server an einer eventuell defekten USV angeschlossen)  ? Handelt es um ein redundantes Netzteil, so sind die beiden Netzteil-Einschübe zu prüfen. Zu bedenken ist, dass bei redundanten Netzteilen auch das Power Distribution Board einen Defekt aufweisen kann.

Im Idealfall verfügen Sie über ein Testgerät für Server-Netzteile, mit dem Sie nun die Spannungswerte überprüfen. Erst im Anschluß prüfen Sie, ob das Netzteil korrekt an das Server-Mainboard angeschlossen wurde. Hinweis: Ziehen Sie unbedingt die Kaltgeräte-Kabel, bevor Sie einen redundanten Netzteil-Einschub lösen oder einschieben !

 

Der Server lässt sich anschalten, bootet aber nicht bzw. das Monitor-Bild bleibt schwarz / es ist zumindest eine leuchtende LED zu erkennen

Sobald das Server-Mainboard mit Strom versorgt wird, bootet zuerst der Baseband Management Controller (BMC), was zumeist an blauen LEDs zu erkennen ist. Daran und an einer einzelnen grünen LED ist zu erkennen, ob das Server-Mainboard grundsätzlich mit Spannung versorgt wird.

Ist bis hierhin noch alles OK, so tun sich zwar sehr viele mögliche Fehlerursachen auf – die professionellen Diagnose-Tools eines Servers unterstützen Sie jedoch dabei den Fehler zu erkennen. So verfügt jedes Server-Board zumindest über vier orange und vier grüne LEDs, über die der Status des Boot-Vorgangs sowie eine ganze Reihe von möglichen Fehlern ermittelt werden können. Folgendes Bild zeigt eine Reihe von Diagnose LED´s des Intel S2600WTT, wie es beispielsweise im R2308WTTYS verbaut ist (Intel Grantley Plattform für E5-2600v3 Prozessoren).

Quelle: http://download.intel.com/support/motherboards/server/sb/s2600wt_tps_r1_01.pdf

Quelle: http://download.intel.com/support/motherboards/server/sb/s2600wt_tps_r1_01.pdf

Nehmen Sie sich Ihr Mainboard-Handbuch zu Hilfe um die Zustands- bzw. Fehler-Codes zu entschlüsseln. Aus Erfahrung empfehlen wir die Diagnose ohne gesteckte Zusatzkarten durchzuführen. Uns sind Konstellationen bekannt, bei denen das Booten durch eine PCI-E Karte (z.B. einem RAID-Controller) blockiert werden kann. Bootet Ihr Server nach einem Firmware-Update nicht mehr korrekt, entfernen Sie zuerst alle Zusatzkarten und versuchen es dann erneut.

 

Beispiel: erster Bootvorgang nach erfolgreichem Firmware-Update

Ein Firmware-Update eines Servers ist Komplex. So werden neben dem eigentlichen Bios oft auch eine Reihe weiterer Komponenten einem Update unterzogen: BMC, FBU und SDR sowie ME. Der Vorgang wird erst komplett während des bootens nach erfolgreichem Update abgeschlossen. Unter bestimmten Kostellationnen kann es vorkommen, dass eine PCI-E Karte diesen Vorgang blockiert. In diesem Fall entfernen Sie alle PCI-E Karten, führen das Update erneut durch und installieren die entsprechenden karten erst wieder, wenn der Server nach dem Update bereits eimal erfolgreich booten konnte und der Update-Vorgang zumit komplett abgeschlossen ist.

 

Neben einem Blick auf die Diagnose LEDs lohnt auch der Zugriff auf den BMC. Falls dieser zuvor für das Remote-Management konfiguriert wurde, können Sie mittels IPMI eine ganze Reihe von Status-Meldungen visuell aufbereitet überprüfen oder auch das System-Logbuch Eintrag für Eintrag durchgehen. Nach unseren Erfahrungen lassen sich so alle üblichen Fehlerquellen Diagnostizieren.

 

http://download.intel.com/support/motherboards/server/sb/s2600wt_tps_r1_01.pdf

http://download.intel.com/support/motherboards/server/sb/s2600wt_tps_r1_01.pdf

 

Übliche Fehler

Massenspeicher

Wirkliche Hardware-Mängel der Kernkomponenten treten bei unseren hochzuverlässigen Server-Komponenten sehr selten auf. Zudem setzen wir durchgehen auf Intel (Server-Board, CPU, Server-Netzwerkkarte, RAID-Controller ) um eine optimale Kompatibilität sicher zu stellen.

Üblicherweise sind es die Festplatten, welche – je nach Beanspruchung – ab dem dritten Jahr zunehmend öfter ausfallen. Massenspeicher sollte also – unabhägig ob durch ein RAID oder auf Dateisystemebene – zumindest einfach redundant ausgelegt sein. Ein Festplatten-Ausfall ist leicht mittels der Intel RAID Web Console 2, aber auch durch eine LED am Server-Gehäuse zu erkennen.

Arbeitsspeicher

Ab dem dritten Betriebsjahr – auch hier wieder je nach Beanspruchung – kann es auch mal zum Ausfall eines RAM-Riegels kommen. Darum empfehlen wir grundsätzlich bei der üblichen Laufzeit von 3 bis 5 Jahren ab einer Bestückung von 64GB aufwärts auf REG ECC RAM zu setzen und den Speicher nicht zu knapp zu bemessen. Einen Ausall eines REG ECC RAM Riegels verkraftet der Server im laufenden Betrieb, erst für einen spätere Tausch muss der Server heruntergefahren werden. Ein Ausfall wird zumindest über den LOG visualisiert, je nach Server-Mainboard auch über LEDs.

 

Andere Fehler

Beispiel: Laufwerke

Es gibt auch eine Reihe selten vorkommender Fehler, die nicht so leicht zu diagnostizieren sind – beispielsweise ein DVD-Laufwerk, dass aufgrund defekter Elektronik auch ohne eingelegte DVD oder CD die SATA-Schnittstelle mit Signale „bombardiert“.

 

Häufige Konfigurations „Fehler“

 

Beispiel: Das RAID-Bios wird nicht angezeigt

Gehen Sie in das BIOS des Server-Mainboards und deaktivieren Sie im Hauptmenü „Quiet Boot“. StellenSie ferner im Menü „(Advanced) Boot Options“ den Boot-Modus auf „Legacy“. Nach dem Speichern der Einstellungen und einem Neustart wird nun das RAID-BIOS während des Bootens wieder angezeigt. Denken Sie darann, je nach Konfiguration Ihres RAIDs und Wahl Ihres Betriebssystems, den Boot-Modus wieder auf UEFI zurück zu stellen.

 

Beispiel: Windows Server lässt sich nicht installieren

Gehen Sie ins Bios und kontrollieren Sie, ob Ihre Festplatte bzw. Ihr RAID-Volume korrekt im Boot-Manager eingetragen sind. Installieren Sie die aktuellen Treiber für Ihren RAID-Controller, falls kein RAID-Volume angezeigt wird.

 

 

Weitere Informationen / Quellen

Intel® RAID Basic Troubleshooting Guide

Troubleshooting Server System Boot Issues

Servermeile – Die Server-Fertigung