Information & Cyber Security, Privacy,

Systems & Software,

Weiterbildung

Chaos Engineering: Die Kunst, resiliente Systeme zu schaffen

Chaos Engineering: Die Kunst, resiliente Systeme zu schaffen
Eine vermeintlich verrückte Idee: Mit Chaos Engineering provoziert man absichtlich Störungen in der Produktionsumgebung (Bildquelle: KI-generiertes Bild/ HSLU-Grafik).

Von Michel Brunner, Teilnehmer des CAS DevOps Leadership and Agile Methods

Würden Sie eine Horde wilder Affen in Ihrem Rechenzentrum wüten lassen? Es droht Verwüstung. Doch wenn Sie Ihr System verbessern wollen, dann sollten Sie die Meute tatsächlich hereinbitten. Das nennt sich Chaos Engineering. Lesen Sie hier, warum Netflix das Werkzeug «Chaos Monkey» in die IT-Gemeinschaft einführte. Und wie es auch Ihr System resilienter machen kann.  

Erinnern Sie sich noch, als Netflix ein DVD-Vertreiber war? Damals im Jahr 2008 hatte er seine erste grössere Störung. Wegen einer Datenbank-Korruption fiel sein Versandsystem aus. Ein Drittel der 8.4 Millionen Kundinnen und Kunden wartete frustrierend lange auf seine Filme.

Was für ein Weckruf! Als sich das Unternehmen 24 Monate später mitten in seiner Umwandlung zur Streaming-Plattform befand, war eines klar: Es musste starke Resilienz ins System eingebaut werden. Bloss wie?

Chaos Engineering zeigt ein enormes Potenzial, um robustere und widerstandsfähigere Systeme zu schaffen. In unserem CAS vermitteln wir innovative Methoden. Wir zeigen, wie man sie sicher und effektiv im eigenen Unternehmen einsetzt.

Oliver Gilbert, Programmleiter des CAS DevOps Leadership and Agile Methods

Die Lösung war keine technische Meisterleistung, sondern eine vermeintlich verrückte Idee: absichtlich Störungen in der Produktionsumgebung produzieren, um potenzielle Schwachstellen zu identifizieren. Diese können dann behoben werden, bevor sie schwerwiegende Probleme verursachen.

Absichtliche System-Störungen: der Aufstieg der Affen

Zu diesem Zweck entwickelte Netflix «Chaos Monkey». Das ist eine Software, die nach dem Zufallsprinzip einen Server während seiner normalen Laufzeit abschaltet. Die Chaos-Affen schlugen also zu. Das Netflix-Betriebsteam war herausgefordert. Rasch zeigten sich daraufhin die positiven Auswirkungen auf die Zuverlässigkeit und Robustheit der Systeme.

Netflix war mit der Software «Chaos Monkey» ein Wegbereiter für Chaos Engineering.

Der Erfolg war so gross, dass Netflix mit der Zeit eine ganze Werkzeugsammlung entwickelte: «The Simian Army». Damit testet der Streaming-Dienstleister seine Infrastruktur gegenüber einer noch grösseren Auswahl an Ausfällen und Störungen.

Pionierarbeit: Affen als Vorreiter im Chaos Engineering

Netflix hat mit seiner Affen-Armee Pionierarbeit geleistet. Daraus ist eine neue Disziplin im Bereich der Software- und Systementwicklung formalisiert worden: Chaos Engineering, die Kunst, resiliente Systeme zu schaffen.

Wenn Sie gemäss dem dritten Weg von DevOps eine Kultur des stetigen Lernens in Ihrem Unternehmen einführen möchten, ist Chaos Engineering genau das, was Sie brauchen.

Eine Kultur des stetigen Lernens – mitten im «Affentheater»: Dafür eignet sich Chaos Engineering (Bildquelle: KI-generiertes Bild/ HSLU-Grafik).

So organisieren Sie Affen-Chaos:

Natürlich sollten Sie nicht planlos in der Produktionsanlage irgendwelche Server deaktivieren oder Netzwerkverbindungen unterbrechen. Ein ordentliches Vorgehen ist zwingend, wenn Sie aussagekräftige Erkenntnisse zum System gewinnen wollen.

Idealerweise gehen Sie in vier Schritten vor:

  1. Bilden Sie eine Hypothese: Formulieren Sie Annahmen darüber, wie das System unter bestimmten chaotischen Bedingungen reagieren wird.
  2. Führen Sie Experimente durchLassen Sie die Affen frei! Führen Sie kontrollierte Störungen herbei, um Ihre Hypothesen zu testen. So prüfen Sie das System auf seine Reaktionen.
  3. Beobachten und messen Sie: Sammeln Sie während der Experimente Daten über die Leistung und das Verhalten des Systems.
  4. Verbessern Sie: Anhand der gesammelten Daten analysieren Sie die Ergebnisse. Ziehen Sie Ihre Schlussfolgerungen daraus. Leiten Sie gegebenenfalls Massnahmen ein, die die System-Resilienz verbessern
Chaos Engineering ist komplex und muss mit der nötigen Vorsicht eingesetzt werden (Bildquelle: KI-generiertes Bild/ HSLU-Grafik).

Chaos ja … aber sicher!

Chaos Engineering muss sorgfältig und verantwortungsvoll durchgeführt werden. Folgendes bewährtes Verfahren hilft, gröbere Probleme zu vermeiden:

  1. Beginnen Sie in einer sicheren Umgebung: Starten Sie Ihre Chaos-Experimente in einer isolierten, nicht-produktiven Umgebung. Somit gewinnen Sie ein besseres Verständnis für mögliche Auswirkungen, bevor Sie diese in der Produktion durchführen.
  2. Automatisieren Sie Experimente: Führen Sie automatisiert und regelmässig Experimente durch. So ermöglichen Sie kontinuierliche Resilienz im System.
  3. Führen Sie gezielte Experimente durch: Es ist nicht zielführend, willkürliche Störungen zu erzeugen. Vielmehr sollen Ihre Experimente darauf abzielen, spezifische Schwachstellen oder Szenarien zu testen. Es gilt also, diese fortlaufend zu identifizieren.
  4. Lernen Sie und passen Sie an: Analysieren Sie die Ergebnisse nach jedem Experiment. Mit diesem Wissen verbessern Sie Ihr System und machen es widerstandsfähiger.
Leitfaden zum Chaos Engineering:  Möchten Sie sich ins Thema vertiefen? Lesen Sie dieses Buch. Es zeigt, wie Sie Schwachstellen in komplexen Softwaresystemen aufdecken und Ausfälle verhindern. Viele Kapitel wurden von Gastautorinnen und -autoren verfasst, um die Perspektive auf verschiedene Bereiche der Softwarebranche zu erweitern.

Einst verrückt, heute eine systematisch strukturierte Disziplin

Das Beispiel von Netflix zeigt, wie mächtig der dritte Weg von DevOps – kontinuierliches Experimentieren und Lernen – sein kann. Aus einer vermeintlich verrückten Idee entstand eine systematisch strukturierte Disziplin. Mittlerweile praktizieren sie zahlreiche renommierte Unternehmen wie etwa LinkedInGoogle oder Microsoft.

Heute kann man sich sogar schon als Chaos Engineer zertifizieren lassen. Wie cool ist das denn?! Sie sind vielleicht nur einen Schritt davon entfernt, die Macht des dritten Weges freizusetzen.

Frage in die Runde: Welche Erfahrungen haben Sie mit Chaos Engineering? Bitte schreiben Sie Ihren Kommentar unten ins Kommentarfeld.

Veröffentlicht: August 2024

Hinweis: Dieser Blogbeitrag wurde im Rahmen eines Leistungsnachweises für
das CAS DevOps Leadership and Agile Methods verfasst. Er wurde geprüft und redaktionell aufbereitet.

Michel Brunner PorträtbildSorgt für Sicherheit: Michel Brunner bloggt aus dem Unterricht des CAS DevOps Leadership and Agile Methods. Er ist Team- und Projektleiter beim Bundesamt für Rüstung armasuisse. Michel Brunner ist seit über 15 Jahren im Sicherheitsumfeld tätig und leitet agile Entwicklungsprojekte. Resilienz ist jeweils eine wichtige Anforderung an Systeme, die auch in degradierten Lagen weiterhin einsatzfähig bleiben müssen.

Bilden Sie sich weiter: Im CAS DevOps Leadership and Agile Methods rüsten Sie sich für die wachsenden Anforderungen an die moderne Softwareentwicklung in agilen Systemen. Sie lernen die wichtigen Prinzipien, Erfolgsfaktoren und Werkzeuge kennen. Noch vertiefter bilden sich die Teilnehmenden im MAS Agile DevOps & Cloud Transformation weiter. Hier lernen Sie, die Chancen von Agilität mit den Möglichkeiten moderner Cloud-Technologien zu verbinden.

🚀 Besuchen Sie unsere (Online-)Info-Veranstaltungen!

Welche Weiterbildung passt zu mir? Der Weiterbildungs-Finder verschafft Ihnen den Durchblick.

Informatik-Blog abonnieren: In diesem Blog erfahren Sie mehr über Trends aus der Welt der Informatik. Wir bieten Einsichten in unser Departement und Porträts von IT-Vordenkerinnen, Visionären und spannenden Menschen: Jetzt abonnieren.

Im Weiterbildungs-Blog stöbern: Was lernen unsere CAS-Teilnehmenden? Was machen sie beruflich? In unserem Weiterbildungs-Blog erfahren Sie mehr. Hier bloggen aktuelle CAS-Teilnehmende aus ihren Weiterbildungsprogrammen heraus. Wir unterstützen und fördern die Bloggenden aktiv in diesem Qualifikationsschritt.

Aktuelles aus unserem Departement auf LinkedIn. 👀 Jetzt folgen!

Kommentare

0 Kommentare

Kommentar verfassen

Danke für Ihren Kommentar, wir prüfen dies gerne.

Pin It on Pinterest