Verbesserte Performance und Stabilität von Atlassian-Umgebungen durch catworkx Root-Cause-Analysen

Root-Cause-Analysen, kurz RCA (zu deutsch: Fehler-Ursachen-Analyse) gehen Problemen auf den Grund. Richtig eingesetzt, verbessern sie nicht nur die Sicherheit von IT-Infrastrukturen (z.B. Atlassian-Umgebungen) in Unternehmen, auch werden Fehler eliminiert und dadurch steigt die Performance. Gerade in großen Unternehmen und Konzernen mit komplexen Strukturen ist die Suche nach der Ursache von Performance-Problemen sehr anspruchsvoll. Sie hängt entscheidend von einer guten Kommunikation zwischen den beteiligten Mitarbeitern sowie einer guten Koordination der Stakeholder ab.

Das Projekt im Überblick

Die Anforderungen
  • Unterstützung bei einer Root Cause Ananlyse (RCA) in der gesamten Atlassian-Infrastruktur und den peripheren Abhängigkeiten
Die Lösung
  • Analysierung der Atlassian-Umgebung des Kunden, Erarbeitung von Handlungsempfehlungen sowie gemeinsame Umsetzung mit dem Kunden
  • Aufbau einer Monitoringumgebung und Durchführung von Last-Simulationen (Ramp-up, Stress-Tests, Last-Tests, Funktionale Tests)
Der Nutzen
  • Zielgerichtete und effiziente Kommunikation in alle Richtungen durch Einbindung aller Stakeholder bei der Lösungsfindung
  • Bündelung der Kompetenzen

catworkx verfügt über viele Jahre Erfahrung in der Einführung und im Betrieb von Atlassian-Produkten und vielschichtigen Infrastrukturarchitekturen. Zudem bewegt sich catworkx sicher in komplexen Konzernstrukturen und bringt ein hohes Maß an Kompetenz in der Projektleitung sowie in der Zusammenarbeit mit unterschiedlichsten Stakeholdern mit.

Ursachenanalyse zu Projektbeginn

Ein Anbieter aus der Telekommunikationsbranche fragte bei catworkx die Unterstützung für eine Root-Cause-Analyse (RCA) an, mit der Zielsetzung die interne Systemperformance zu verbessern. catworkx nahm die Herausforderung an und startete zu Projektbeginn mit der Analyse des Problems.

Im ersten Schritt geht es um die Eingrenzung möglicher Fehlerquellen (technische Analyse). In der Folge werden Probleme oder Fehlerquellen systematisch eruiert und Maßnahmen ergriffen, die zur dauerhaften Beseitigung des Problems führen.

Als außenstehender Dienstleister wirft catworkx einen Blick aus der Vogelperspektive auf die Problemstellung und übernimmt die Koordination zwischen Atlassian, den internen Fachbereichen, der IT, den ausgegliederten Infrastruktur-Teams für die Datenbank, die Netzwerke, den Server-Betrieb, den App-Herstellern, externen Beratern, Dienstleistern und/oder Betreibern.

Daten als Grundlage für die faktenbasierte Ergründung von Problemen

Neben der Analyse, welche Kennzahlen für das Unternehmen wichtig sind und welche nicht und der Definition einer klaren Begrifflichkeit – z. B. „was bedeutet besser, was schneller“ – bilden die unternehmensinternen Daten die nötige Grundlage für die faktenbasierte Ergründung von Problemen. Einmal festgelegt, nach welcher Kennzahl bzw. von welchem Wert ausgegangen werden soll (Bezugsgröße), können später Veränderungen und Abweichungen – im positiven wie negativen Sinne – nachgewiesen werden: Alle weiteren Messungen stehen von nun an in Relation zu diesem Wert. Aber nicht immer liegen alle relevanten Daten vor, die zur
Lösung eines Vorfalls (Incidents) benötigt werden. Manchmal müssen Daten erst mittel- oder langfristig gesammelt werden, um davon später Ableitungen treffen zu können oder um zu sehen, wie es z. B. der jeweiligen Applikation, den einzelnen Komponenten geht: gut oder eben nicht. Hier wertet catworkx mittels Monitoring – idealerweise beim Kunden – relevante Daten aus.

Das Ziel, welches catworkx dabei zusammen mit dem Kunden verfolgt: Das Ergebnis ist immer eine fundierte Aufarbeitung und Darstellung der IST-Situation sowie der Potenziale. Dies ist nicht zu pauschalisieren: So gibt es bei dem einen Kunden mehr und bei dem anderen Kunden weniger Potenzial zur Optimierung.

Fakten durch den Aufbau von Messumgebungen

Ist es nicht möglich auf eine ausgebaute Monitoringumgebung beim jeweiligen Kunden zurückzugreifen, kann der sogenannte „Vitalitätszustand“ von Applikationen – und allen zugehörigen Komponenten – durch den Aufbau von Messumgebungen durchgeführt werden. Das bedeutet einen Mehraufwand – doch der kann sich lohnen: Durch die daraus gewonnenen Daten lassen sich – schwarz auf weiß – z. B. bestimmte Verhaltensweisen aufzeigen und Korrelationen herleiten: etwa zwischen Tag und Nacht, speziellen Wochentagen oder Arbeitszeiten. Auch können Engpässe und Reaktionszeiten der Applikationen aufgezeigt werden. All das sind wichtige Informationen, die es dem Unternehmen ermöglichen, zielgerichtet tätig zu werden und an der nachhaltigen Behebung und damit Steigerung seiner Performance sowie seiner Wertschöpfung, zu arbeiten.

Die Alternative: Lastsimulationen richtig aufsetzen und optimal auswerten

Eine weitere Möglichkeit besteht darin, Lastsimulationen durchzuführen: In diesem Fall wird die Umgebung des Unternehmens so detailgetreu nachgebaut, wie eben möglich. Lastsimulationen können bestimmte Incident-Kategorien reproduzieren und so zur Lösungsfindung beitragen. Das Ergebnis sollte immer – egal auf welche Weise – eine fundierte Aufarbeitung der IST-Situation und der Potenziale sein.

Gute Performance = mehr Gewinn für ein Unternehmen

Im Falle des Kunden aus der Telekommunikationsbranche wurden alle zum Betrieb notwendigen Komponenten und Infrastrukturabschnitte bewertet. Danach wurden konkrete Handlungsempfehlungen ausgearbeitet, eine grobe Einschätzung der Machbarkeit und der Aufwände aufgezeigt, die dann in der Folge und innerhalb der zyklischen Meetings beim Kunden vorgestellt und diskutiert wurden. Die Umsetzung der Maßnahmen erfolgte während des laufenden Projekts als auch in einem Folgeprojekt mit zuvor spezifizierten Bestandteilen.

Fazit:

Fakt ist, dass sich Unternehmen Fehler und Ausfälle in Prozessen und Systemen auf Dauer nicht leisten können, denn schlechte Performance ist kostenintensiv. Root-Cause-Analysen sind ein wirksames Mittel, wenn es darum geht, Probleme zu identifizieren. In der Retrospektive erlauben sie Rückschlüsse und liefern wichtiges Zahlenmaterial. Eine gute Performance hingegen bedeutet mehr Effizienz, mehr Produktivität und letztendlich mehr Gewinn für das Unternehmen – das hat auch der Kunde aus der Telekommunikationsbranche erkannt.

Kontaktieren Sie uns!

Wir beraten Sie zum gesamten Atlassian Ecosystem und unterstützen Sie gerne hinsichtlich der Optimierung von Lizenzmodellen und -kosten.