Google DeepMind hat Decoupled DiLoCo (Distributed Low-Communication) vorgestellt. Diese verteilte Trainingsarchitektur löst die Herausforderungen beim Training von KI-Modellen über geografisch verteilte Rechenzentren hinweg. Die Architektur ermöglicht die Vorbereitung großer Sprachmodelle (LLMs), indem sie die Berechnung in asynchrone, fehlertolerante 'Inseln' entkoppelt. So umgehst du die Notwendigkeit einer engen Synchronisation herkömmlicher Ansätze.
- Google DeepMinds neue Architektur Decoupled DiLoCo ermöglicht das effiziente Training riesiger KI-Modelle über geografisch verteilte Rechenzentren.
- Durch die intelligente Aufteilung in asynchrone Rechner-Inseln sinkt der Netzwerkbedarf drastisch von 198 Gbit/s auf unter 1 Gbit/s.
- Das System beendet die Abhängigkeit von monolithischen Supercomputern und bleibt selbst bei massiven Hardware-Ausfällen zu 88 Prozent effizient.
Die Grenzen herkömmlicher AllReduce-Synchronisation
Traditionelles verteiltes Training, insbesondere datenparallele Ansätze, erfordert eine kontinuierliche Synchronisation von Gradienten über alle Geräte hinweg. Dies geschieht in einem Prozess namens AllReduce, bei dem jedes Gerät auf das langsamste Gerät warten muss. Bei Tausenden von Chips in mehreren Rechenzentren führt dies zu massiven Engpässen und macht globales Training unpraktisch.
Ein weiteres Problem ist die Bandbreite. Konventionelles datenparalleles Training benötigt etwa 198 Gbit/s Inter-Rechenzentrums-Bandbreite über acht Rechenzentren hinweg, was die Kapazitäten gängiger Weitverkehrsnetze (WAN) übersteigt.
Decoupled DiLoCo: Symbiose aus Pathways und DiLoCo
Decoupled DiLoCo basiert auf zwei bestehenden Systemen von Google: Pathways und DiLoCo. Pathways ist ein verteiltes KI-System, das auf asynchronem Datenfluss basiert und es verschiedenen Rechenressourcen ermöglicht, unabhängig voneinander zu arbeiten. DiLoCo reduziert den Bandbreitenbedarf zwischen Rechenzentren erheblich, indem jede Workstation mehrere lokale Gradientenschritte durchführt, bevor sie mit anderen kommuniziert.
Decoupled DiLoCo kombiniert diese Konzepte. Aufbauend auf Pathways wird das Training in separate Beschleuniger-Cluster, sogenannte 'Learner Units', aufgeteilt. Jede Learner Unit trainiert semi-unabhängig und führt viele lokale Schritte aus, bevor sie ein komprimiertes Gradientensignal an einen übergeordneten Optimierer sendet.
Effizienz und Robustheit durch asynchrone Inseln
Die Architektur ermöglicht ein robustes Training, auch bei hohen Hardware-Ausfallraten und über große Distanzen hinweg. In Tests erreichte das System einen Goodput von 88 % unter hohen Ausfallraten, während Standardmethoden auf 27 % einbrachen. Die erforderliche Bandbreite sank dabei drastisch von 198 Gbit/s auf lediglich 0,84 Gbit/s.
Dieser asynchrone Ansatz sorgt dafür, dass ein Chip-Fehler in einer Learner Unit nicht den gesamten Trainingsprozess blockiert. Das System ist 'selbstheilend' und integriert zurückkehrende Einheiten nahtlos in den laufenden Prozess.
So What? – Die strategische Bedeutung für die KI-Skalierung
Für dich als Entscheider bedeutet Decoupled DiLoCo das Ende der Abhängigkeit von monolithischen Supercomputern an einem einzigen Standort. Du kannst nun Rechenkapazitäten weltweit bündeln, ohne teure Spezialleitungen mieten zu müssen. Dies demokratisiert den Zugang zu massivem Rechenaufwand für das Training von KI-Agenten und komplexen Modellen.
❓ Häufig gestellte Fragen
✅ 10 Claims geprüft, davon 8 mehrfach verifiziert
📚 Quellen