Veröffentlicht am 2023-04-10 • 8 Min. Lesezeit
SRE-Steuerung: Stabilität sichern mit SLOs und Fehlerbudgets
Entwickler wollen neue Features so schnell wie möglich ausliefern. Der Betrieb will Systemstabilität durch minimale Änderungen sichern. SRE (Site Reliability Engineering) löst diesen Interessenkonflikt durch ein geteiltes, quantitatives Instrument: das Fehlerbudget.
Service Level Objectives & Fehlerbudgets
Das Fehlerbudget definiert den mathematischen Spielraum für akzeptable Ausfälle. Bei einer vereinbarten Verfügbarkeit (SLO) von 99.9% beträgt das Fehlerbudget 0.1% bezogen auf ein 30-Tage-Fenster.
Release-Steuerung über das Budget
Das Fehlerbudget fungiert als automatisiertes Steuerungselement:
- Budget vorhanden: Feature-Releases können mit normaler Geschwindigkeit fortgesetzt werden.
- Budget aufgebraucht: Der Release-Prozess wird gestoppt. Die Entwicklungsressourcen werden vollständig auf Systemstabilität fokussiert.
Überwachung der SLO-Abnutzungsrate (Burn Rate)
Moderne SRE-Teams alarmieren nicht bei einfachen Grenzwertüberschreitungen, sondern überwachen die Abnutzungsrate (Burn Rate) des Fehlerbudgets. Verbraucht ein Vorfall das Budget zu schnell, wird sofort ein Pager-Alarm ausgelöst.
Gemeinsame Ziele schaffen
Durch Fehlerbudgets arbeiten Entwicklung und Betrieb Hand in Hand. Systemstabilität wird zu einer messbaren Größe, die direkt die Release-Frequenz steuert, wodurch eine hohe Zuverlässigkeit für den Nutzer gewährleistet wird.