Quantcast
Channel: Andy – Andy's Blog
Viewing all articles
Browse latest Browse all 2189

Sommer, Sonne, Server – Was piept denn da?

$
0
0

Es ist Sommer und da sind so manche Temperatur-bedingten Probleme nicht weit.

Ein Kunde meldete sich und meinte das sein Server piept. Das fanden wir seltsam, denn das Monitoring (Server-Eye und SuperDoctor) meldeten keinerlei Probleme. Daher gingen wir auf die Suche was da los ist. Zum Einsatz kommt übrigens ein Microserver MI106+ (V3.1) von Thomas Krenn, der nicht mal zwei Jahre alt ist.

In den üblichen Logs von Windows Server, dem RAID-Controller, etc. fand sich zunächst nichts. Leicht stutzig wurde ich dann beim Blick ins BMC, während die aktuellen Messwerte alle im grünen Bereich waren, fand sich im “Health Event Log” jede Menge Einträge dieser Art:

89 2024/07/10 16:05:59 Processor(CPU Temp) Processor automatically throttled - Assertion
90 2024/07/10 16:05:59 Processor(CPU Temp) Processor automatically throttled - Deassertion

Wie man sieht gibt es teilweise zwischen den Meldungen keine Sekunde Differenz. Andere Einträge waren dann mal eine bis zehn Sekunden auseinander. Kurzum: Alles nicht wirklich lange bzw. sogar so kurz, das man es beim Monitoring nicht mal mitbekommt.

Bei einem kurzfristig stattgefundenen Vor-Ort-Termin zeigte sich dann, das bei jedem Piep ein Protokolleintrag dazu kam. Es piept übrigens einmal kurz und einmal lang. Welcher Ton zu welchem Eintrag gehört kann ich allerdings nicht sagen.

Zum Zeitpunkt als ich vor Ort war hatte der Server bei 40% Prozessor-Last 85°C CPU-Temperatur. Beim Öffnen der Serverschranktür kam einem erstmal ein Schwall warme Luft entgegen, gefühlt 35°C oder mehr, bei 27°C Raumtemperatur. Der Schrank ist leider nicht aktiv belüftet. Der Server fühlte sich ebenfalls warm an, schätzungsweise 40°C Gehäusetemperatur. Übrigens: Das Ganze steht leider nicht in einem klimatisierten Serverraum, kleinere Büro-Umgebung umschreibt es am Besten. Kurzum: Die Umgebung spielt bei der ganzen Geschichte wohl auch eine Rolle.

Der Support von Thomas Krenn ist übrigens die ganze Zeit über mit eingebunden. Hier gab es recht früh bereits den Hinweis auf ein zusätzliches Lüfter-Kit für das genannte Modell, welches zwei zusätzliche 40mm Lüfter und einen besseren CPU-Kühler mitbringt.

Sofort-Maßnahmen

Bei den zuvor genannten klimatischen Bedingungen war klar, das etwas Abkühlung her musste, so wurde zunächst der “Fan Mode” auf “Full Speed” geändert, was nichts brachte, und so wurde eine Seitenwand des Schranks entfernt (an die Andere kommt man nicht ran) und die Seitenwände des Servers abgenommen. Zack, 14°C weniger CPU-Temperatur. Zur Sicherheit wurde die Firmware des BMC mal aktualisiert, was leider nichts änderte. Ein BIOS-Update steht ebenfalls zur Verfügung, aber sowas kann man nicht mal schnell im laufenden Betrieb installieren. Wie sich im Laufe der nächsten Stunden zeigen sollte, war das allerdings noch nicht alles.

Am Abend (beim täglichen AV-Scan) und über Nacht (bei der Datensicherung) gab es dann wieder jede Menge Log-Meldungen. Ausgestanden ist die Sache also noch nicht.

Eine mögliche Ursache

Das die Umgebung kühler werden muss ist klar und wird geklärt.

Vermutlicher Auslöser dieser Meldungen ist wohl der Turbo Boost des Prozessors (hier Intel Xeon E-2236) in Verbindung mit dem Supermicro X11SCL-iF-Mainboard. Der Prozessor darf kurzzeitig übertaktet werden und erreicht so auch mal sein Limit von 100° C oder kurz auch mal mehr. In diesem Fall gibt es dann offenbar gleich eine Warnung und es greift dann wohl gleich die Drosselung und so kommen die Meldungen zu Stande. Vermutlich ist Supermicro hier etwas überempfindlich. Ganz unbekannt ist das Ganze wohl nicht:

Server Support Forum – Supermicro & Turbo Mode – IPMI meldungen Processor automatically throttled & Temperatur generell

Motherboard Point – Supermicro H11DSi IPMI error, “Processor automatically throttled – Assertion”

Da mal Neustarten und im BIOS schauen keine Option war wurde über die Windows-Bordmittel der Turbo Boost deaktiviert. Siehe

Thomas Krenn – Wiki – Windows CPU Turbo Boost deaktivieren

Das gilt auch (wie hier im Einsatz) für Windows Server 2022. Nach dieser Änderung sank die CPU-Temperatur um weitere gut 20°C ab, so das man nun bei um die 47°C ist. Erkauft wird die Abkühlung mit weniger Leistung. Laut der Aussage einer Mitarbeiterin sind ein paar Dinge jetzt wohl hakeliger. Ob das für Alle zutrifft müssen wir in einem Interview mal klären.

Die Seitenwände sind übrigens nach wie vor weg/offen. Spannend wird es zudem über den Abend und die Nacht, ob es wieder Meldungen geben wird oder nicht.

Warum tritt das Ganze erst jetzt auf und nicht bei den ersten Hitzewellen des Jahres oder gar im vergangenen Sommer?

Das ist eine sehr gute Frage. Ein Teil der Geschichte könnte sein, das die Wärmeleitpaste jetzt einen ticken schlechter/trockener sein könnte als am Anfang, vielleicht liegt’s aber auch an Windows (Updates) oder irgendwas anderem. Ungewöhnliche Last oder Prozesse die aus dem Ruder laufen haben wir keine feststellen können.

An der Hardware-Umgebung (Server selbst, im Schrank, etc.) hat sich jedenfalls seit längerer Zeit nichts geändert. Der Wärme-/Hitzestau im Schrank und ggf. im Server muss natürlich behoben werden.

Wie geht es weiter?

Aktuell klären wir mit allen Beteiligten ab, wie es weiter gehen kann. Angebote für das erwähnte Lüfter-Kit sowie eine Schrank-Belüftung liegen bereits vor. Das BIOS-Update steht noch aus, mal sehen wann wir das machen können und wie es danach aussieht. Ich werde berichten.

Danksagung

Vielen Dank einmal mehr an den schnellen Support von Thomas Krenn.

Update 12.07.2024

Seit der Veröffentlichung des Beitrags gab es keine Meldungen mehr. Wir planen aktuell das BIOS-Update über das Wochenende durchzuführen. Mal sehen ob sich durch dieses und dem anschließenden Re-Aktivieren des Turbo Boosts etwas ändert.


Viewing all articles
Browse latest Browse all 2189

Trending Articles