GitHub hat in einem offiziellen Postmortem drei signifikante Ausfallserien am 2. Februar, 9. Februar und 5. März 2026 eingestanden und benennt rapides Nutzungswachstum, architektonische Kopplung zwischen Services sowie unzureichende Load-Shedding-Mechanismen als zentrale Ursachen. Der technische Auslöser für den kritischsten Incident am 9. Februar war eine Cache-Refresh-TTL-Änderung vom 7. Februar 2026: GitHub reduzierte die Time-to-Live für User-Setting-Caches von 12 auf 2 Stunden, um ein neues Modell schneller auszuliefern. Das niedrige Wochenend-Traffic-Aufkommen maskierte das Problem zunächst – mit Arbeitswochenbeginn, kombiniert mit einem Client-App-Update und einer weiteren Modell-Freigabe, kollabierte der betroffene Datenbankcluster unter der Last. Ein klassisches Beispiel dafür, wie eine scheinbar isolierte Konfigurationsänderung in einem tight-coupled System eine plattformweite Kaskade auslöst.
- GitHub nennt architektonische Kopplung, mangelndes Load-Shedding und rapides Wachstum als Hauptgründe für die Ausfallserie im Frühjahr 2026.
- Eine von zwölf auf zwei Stunden verkürzte Time-to-Live für Caches überlastete zum Start der Arbeitswoche einen zentralen Datenbankcluster.
- Als Gegenmaßnahme isoliert GitHub nun kritische Dienste voneinander und forciert eine massive Service-Migration zu Microsoft Azure.
GitHub identifiziert im Postmortem vier strukturelle Schwachstellen: unerwartete Single Points of Failure, mangelhafte Isolation zwischen Komponenten im kritischen Pfad, schwache Throttling-Mechanismen und lückenhafte End-to-End-Validierung während Incidents. Als Reaktion baut GitHub das User-Cache-System mit einem segmentierten Datenbankcluster neu auf, isoliert kritische Services wie GitHub Actions und Git von gemeinsamer Infrastruktur und führt ein vollständiges Kapazitäts-Audit durch. Parallel läuft eine Azure-Migration: Aktuell werden laut GitHub-Blogpost 12,5 % des gesamten Plattform-Traffics aus Azure Central US bedient – bis Juli 2026 soll dieser Anteil auf 50 % steigen, um vertikale und horizontale Skalierung über Regionen hinweg zu ermöglichen. Für Teams, die CI/CD-Pipelines, Dependency-Management und KI-gestützte Code-Assistenten vollständig auf GitHub aufgebaut haben, sind diese strukturellen Defizite kein abstraktes Architekturproblem, sondern ein konkretes Delivery-Risiko – unabhängig davon, ob GitHub seine Migrationsziele einhält.
❓ Häufig gestellte Fragen
✅ 10 Claims geprüft, davon 3 mehrfach verifiziert
📚 Quellen