Sep 25

Monitoring: Server, Dienste, Funktionen überwachen


Mit der steigenden Zahl an Computer Systemen die unternehmenskritisch sind hilft ein Monitoring System auf einen Blick zu sehen ob es in einem Bereich Probleme gibt oder nicht.

Wir verwendeten bereits seit Oktober 2012 Nagios 3 erweitert mit einem zentralen Dashboard basierend auf PHP.

Im September 2020 erfolgte dann die Ablöse durch Icinga2 mit all seinen Neuerungen und Vorzügen:

  • zentrale Konfiguration
  • verteiltes Monitoring ist fundamentaler Bestandteil von Icinga2 mittels Satelliten-Systemen
  • moderne Weboberfläche mit IcingaWeb2

So überwachen und kontrollieren wir aktuell
(Interne- und Kunden-Infrastruktur)
134 Host mit 198 Services.

Es gibt viele verschiedene Checks – einige Beispiele dafür:

PING – Erreichbarkeit im TCP Netzwerk

Ping – dient zur Überprüfung ob der Server über das TCP Netzwerk erreichbar ist

HTTP – Webseiten und Webservices

prüft ob z.B. auf Port 80 ein Webserver antwortet, der Check kann ausgebaut werden mit Prüfung ob gewisse Inhalte in der Antwort enthalten sind.
Beispiele dafür sind z.B. ob das Webinterface eines Routers erreichbar ist, ob ein JSON Webservice mit gewissen Eingangsparameter die erwartete Antwort zurückgibt, …

SNMP – Systemzustände

fragt den angegebenen OID (=Object Identifier) ab und prüft ob sich dieser Wert innerhalb der angegebenen Grenzwerte befindet.
Beispiel dafür sind z.b.: Temperatur Sensoren im Serverraum, Akku Kapazität der USV, aktuell aktive Jobs auf einer IBM iSeries Maschine, Tonerfüllstand von Druckern, …

DNS

prüft ob der DNS Service die angegebenen Namen auflösen kann

DHCP

prüft ob im internen LAN eine IP Adresse vom DHCP Server zugewiesen wird (Fehler wären z.B. Adresspool erschöpft)

Management Konsolen XCC, IMM

Checks von diversen Server-Management Konsolen Lenovo XCC, IMM
auf Festplatten/Raid Fehler, defekte Lüfter, …

SSL – Zertifikat Laufzeit Check

Tägliche Prüfung ob das Zertifikat meiner Domain noch mindestens 10 Tage gültig ist.

Folgen von keinem Monitoring?

Am Beispiel der eben genannten SSL Zertifikat Laufzeit Checks sieht man einmal mehr die Nützlichkeit solcher Monitoring Lösungen – denn gerade bei SSL Zertifikaten ist die Einrichtung meist schnell erledigt, die Webseite oder das Webservice läuft – und keiner denkt mehr in 3 Monaten oder in 1 Jahr an die Verlängerung – aber gerade hier können Fehlern weitreichende Folgen haben: Webservices funktionieren nicht mehr, Anrufe von verärgerten Kunden, Bestellausfall bis hin zum Image-Verlust weil der Browser „Unsicher“ meldet.

Ohne Monitoring kann die IT oft nur warten bis sich ein Kunde/Benutzer mit einem Problem meldet. Hier muss dann auch noch meist schnell reagiert werden weil der Kunde auf die Lösung des Problemes wartet.

Mit Monitoring bemerkt die IT den Fehler oft schon vor dem Kunden und kann viel früher das System prüfen, gegebenenfalls neu starten oder andere Schritte unternehmen.

Wie wird wer informiert?

Es nützt natürlich nichts ein System zu überwachen und niemand bekommt mit wenn es Probleme damit gibt und z.B. der Server nicht mehr erreichbar ist. Der übliche Weg läuft als Benachrichtigung mittels E-Mail, bei uns gibt es aber noch weitere Formen der Benachrichtigung. Z.B. läuft bei uns im Haus noch zusätzlich eine eigene Übersicht auf einem Monitoring Bildschirm mit dem aktuellen Status aller überwachten Systeme und Services – sodass wir hier schnell reagieren können sobald Meldungen vorhanden sind.

Wie ist das mit dem „verteilten Monitoring“ ?

Dann bleibt eben noch die Frage wie wir die internen Systeme unserer Kunden prüfen können – diese sind ja fast ausschließlich hinter dem Router / der Firewall im firmeneigenen internen Netzwerk.

Gerade diese Systeme sind aber nicht weniger wichtig. Grundlegende Fragen wie:

  • funktioniert die DNS Auflösung intern,
  • ist das Internet erreichbar,
  • ist der Drucker online,
  • wie hoch ist die Temperatur im Serverraum
  • etc.

Dazu installieren wir ein Satelliten-System intern beim Kunden (basierend auf Linux Debian) welcher die Checks von intern aus durchführt und die Ergebnisse an unser zentrales Monitoring weiterleitet – sodass die Prüfungen zwar verteilt sind (teils direkt vom Server, teils beim Kunden) aber alle Informationen an einer zentralen Stelle zusammenlaufen.
Konfiguriert wird das übrigens auch an einem zentralen Punkt. Bei Änderungen werden die neuen Checks automatisch auf das Satelliten-System beim Kunden synchronisiert sodass wir uns nach Einrichtung des Satelliten-Systems nicht bei jeder Änderung erneut auf das Satelliten-System verbinden müssen.

System internes prüfen? Ja mit passiven Checks

Manche internen System-Zustände will oder kann man nicht nach außen zugänglich machen – am Beispiel der IBM iSeries prüfen wir System-interne Zustände direkt am System.

So ist es uns möglich sofort informiert zu werden wenn für den Systemadministrator Namens QSYSOPR wichtige System Meldungen vorliegen. Diese wichtigen System Meldungen kann man sonst nur prüfen wenn man direkt am System angemeldet ist und mittels einem Befehl diese Nachrichten-Queue abfragt.

Dieses Check-Ergebnis wird natürlich sofort an unser zentrales Monitoring gemeldet – ganz ohne einzuloggen – ganz ohne selbst nachzusehen – direkt vom IBM iSeries System.

Für IBM iSeries Kenner: Wir überwachen auch diverse Subsysteme, Anzahl der aktiven Jobs, CPU Auslastung, diverse Maschinenprobleme, …