DeepMind: Neue Architektur für verteiltes…

DeepMind hat Decoupled DiLoCo (Distributed Low-Communication) vorgestellt, eine neue Architektur, die das Training von KI-Modellen über geografisch verteilte Rechenzentren hinweg ermöglicht, selbst bei geringerer Bandbreite und erhöhter Hardware-Ausfallsicherheit. Während traditionelles KI-Training auf enger Synchronisation identischer Chips basiert, löst die neue Methode diese Herausforderung, indem sie Trainingsläufe in entkoppelte „Inseln“ von Recheneinheiten aufteilt. Durch asynchrone Datenflüsse zwischen diesen Einheiten werden lokale Störungen isoliert, wodurch andere Systemteile effizient weiterlernen können, was ein flexibles Training über global verteilte Rechenzentren ohne die Kommunikationsverzögerungen früherer Methoden wie Data-Parallel ermöglicht.

⚡ TL;DR

Die Architektur „Decoupled DiLoCo“ teilt das KI-Training in entkoppelte Recheninseln auf, um Modelle über weltweit verteilte Rechenzentren effizient zu trainieren.
Dank asynchroner Datenflüsse arbeitet das System selbstheilend und isoliert Hardware-Ausfälle, sodass andere Einheiten ungestört weiterlernen können.
Die Methode bündelt standortübergreifend ungenutzte Kapazitäten und erlaubt sogar die performante Kombination von unterschiedlichen Hardware-Generationen.

Resilienz durch asynchrone „Rechen-Inseln“

Decoupled DiLoCo baut auf DeepMinds früheren Entwicklungen Pathways und DiLoCo auf. Diese Architektur ermöglicht asynchrones Training über separate „Learner Units“, sodass der Ausfall eines Chips den Fortschritt anderer nicht unterbricht. Das System ist sogar selbstheilend, wie Tests mit „Chaos Engineering“ zeigten, bei denen es den Trainingsprozess nach dem Verlust ganzer Learner Units fortsetzte und diese nahtlos wieder integrierte. Bei Tests mit Gemma 4-Modellen erwies sich das System bei Hardware-Ausfällen als stabiler und bandbreitenschonender als herkömmliche Methoden, während die Benchmark-Leistung identisch blieb. Mit einer „Goodput“-Rate von 88 % bei simulierten Ausfällen von 1,2 Millionen Chips übertraf es Standard-Data-Parallel-Methoden deutlich, wobei die ML-Leistung nahezu unverändert blieb.

Diese Architektur ermöglicht das Pre-Training von Modellen im Produktionsmaßstab; ein 12-Milliarden-Parameter-Modell wurde über vier US-Regionen mehr als 20-mal schneller trainiert als mit konventionellen Synchronisationsmethoden. Decoupled DiLoCo erreicht dies durch die Integration von Kommunikationszeiten in längere Rechenperioden und die Vermeidung von Engpässen. Zudem kann es ungenutzte Rechenressourcen an verschiedenen Standorten nutzen und erlaubt die Kombination unterschiedlicher Hardware-Generationen, wie TPU v6e und TPU v5p, in einem einzigen Trainingslauf, wodurch die Nutzungsdauer bestehender Hardware verlängert und die verfügbare Rechenkapazität ohne Leistungseinbußen erhöht wird. Dies ist ein entscheidender Schritt für die Skalierung von KI-Infrastrukturen.

❓ Häufig gestellte Fragen

▶ Was ist Decoupled DiLoCo von DeepMind?

Es ist eine innovative Architektur für verteiltes KI-Training, die auf asynchronen Datenflüssen basiert. Sie teilt Trainingsvorgänge in entkoppelte Einheiten auf und ermöglicht so ein effizientes globales Training selbst bei geringer Bandbreite.

▶ Wie geht das System mit Hardware-Ausfällen um?

Die Architektur arbeitet extrem ausfallsicher und selbstheilend, indem sie lokale Chip-Störungen isoliert. Dadurch können intakte Recheneinheiten ungestört weiterarbeiten und ausgefallene Systeme später nahtlos wieder in den Betrieb integriert werden.

▶ Welche Vorteile bringt die Architektur für die Hardware-Nutzung?

Das System kann ungenutzte Rechenressourcen an völlig unterschiedlichen Standorten intelligent bündeln. Zudem erlaubt es die Kombination unterschiedlicher Hardware-Generationen in einem einzigen Trainingslauf, was die Lebensdauer bestehender Chips deutlich verlängert.

✅ 10 Claims geprüft, davon 3 mehrfach verifiziert

ℹ️ Wie wir prüfen →

📚 Quellen