Catastrophic Forgetting
Was ist Catastrophic Forgetting?
Catastrophic Forgetting — auch Catastrophic Interference genannt — bezeichnet den abrupten Leistungsabfall eines neuronalen Netzes auf zuvor erlernten Aufgaben, sobald es auf neuen Daten oder Tasks trainiert wird. Es ist das Kernproblem des Continual Learning (auch Lifelong Learning oder Incremental Learning) und erklärt, warum klassische neuronale Netze nicht einfach sequenziell trainiert werden können. Während das menschliche Gehirn neue Informationen inkrementell integriert, ohne Altes zu zerstören, überschreiben Standard-Trainingsverfahren wie Stochastic Gradient Descent (SGD) bestehende Gewichte rücksichtslos — mit verheerenden Konsequenzen für alles, was das Modell vorher gelernt hat.
Wie funktioniert Catastrophic Forgetting?
Technisch entsteht das Problem durch die Art, wie Gewichte in neuronalen Netzen aktualisiert werden. Beim Training auf neuen Daten optimiert der Gradient die Gewichte ausschließlich auf den aktuellen Loss — ohne Rücksicht darauf, welche Gewichte für frühere Aufgaben kritisch waren. Das Resultat: Gewichte, die für Task A essenziell waren, werden für Task B überschrieben. Drei Lösungsklassen haben sich etabliert. Regularisierungsansätze wie Elastic Weight Consolidation (EWC) (Kirkpatrick et al., 2017) identifizieren über die Fisher-Information-Matrix besonders wichtige Gewichte und schützen sie durch einen Penalty-Term im Loss. Replay-basierte Methoden wie Gradient Episodic Memory (GEM) oder das neuere Dark Experience Replay++ (DER++) speichern komprimierte Repräsentationen alter Samples und wiederholen diese beim Training — DER++ reduziert dabei den Speicherbedarf im Vergleich zu naivem Experience Replay um bis zu 70 %. Parameter-effiziente Methoden (PEFT) wie LoRA (Low-Rank Adaptation) und QLoRA umgehen das Problem architektonisch: Task-spezifische Adapter werden ins Modell eingefügt, ohne die Kerngewichte zu verändern. Hinzu kommen Progressive Neural Networks und Mixture-of-Experts (MoE)-Architekturen, die für neue Aufgaben dedizierte Kapazitäten allokieren.
Catastrophic Forgetting in der Praxis
Im LLM-Fine-Tuning ist Catastrophic Forgetting heute eines der drängendsten Produktionsprobleme. Wer ein Basismodell auf unternehmensspezifische Daten anpasst, riskiert, dass das Modell danach grundlegende Sprachfähigkeiten oder Faktenwissen verliert. LoRA-basierte Adapter sind deshalb zum Standard geworden. Bei autonomen Systemen — etwa adaptiven Roboterplattformen — muss ein Modell kontinuierlich neue Umgebungen und Aufgaben lernen, ohne frühere Fähigkeiten zu verlieren; hier dominieren Replay- und MoE-Ansätze. Im Bereich personalisiertes Machine Learning, wie Empfehlungssysteme bei großen Streaming- oder E-Commerce-Plattformen, müssen Modelle täglich auf neue User-Interaktionen reagieren — Catastrophic Forgetting würde dabei historische Präferenzmuster zerstören, weshalb kontinuierliches Training mit Schutzmechanismen unverzichtbar ist.
Vorteile und Grenzen
Die verfügbaren Gegenmaßnahmen sind wirksam — aber nie kostenlos. EWC und ähnliche Regularisierungsansätze sind rechnerisch günstig, skalieren aber schlecht, wenn die Zahl der Tasks wächst, da die Fisher-Matrix mit jeder neuen Aufgabe teurer wird. Replay-Methoden liefern starke Ergebnisse — DER++ erreicht auf Split-MNIST 98 % Accuracy — benötigen aber Speicher für alte Samples, was auf Edge-Geräten mit begrenztem RAM zum Problem wird. LoRA und PEFT-Methoden schützen Kerngewichte zuverlässig, setzen aber voraus, dass Tasks klar voneinander abgrenzbar sind, was in der Praxis selten perfekt gelingt. Grundsätzlich gilt: Kein Ansatz löst Catastrophic Forgetting vollständig. Der Avalanche-Benchmark zeigt, dass selbst Top-Methoden auf komplexen Szenarien mit 50+ Tasks nur rund 75 % durchschnittliche Accuracy erreichen. Das biologische Vorbild — das menschliche Gehirn mit seiner Komplementären Lernsysteme-Theorie (Hippocampus + Neokortex) — bleibt unerreicht.