PromptLoop
News Analyse Werkstatt Generative Medien Originals Glossar KI-Modelle Vergleich Kosten-Rechner

David Silver: LLMs sind eine Sackgasse — Reinforcement Learning ist der richtige Weg

David Silver, Schöpfer von AlphaGo, kritisiert den LLM-Fokus der KI-Branche und setzt mit Ineffable Intelligence auf Reinforcement Learning als Weg zur Superintelligenz.

David Silver: LLMs sind eine Sackgasse — Reinforcement Learning ist der richtige Weg
📷 KI-generiert mit Flux 2 Pro

Silvers Kernargument lässt sich in einem Satz zusammenfassen: LLMs lernen von menschlicher Intelligenz, anstatt eine eigene zu entwickeln. Gegenüber WIRED formulierte er es so: „Human data is like a kind of fossil fuel that has provided an amazing shortcut." Systeme, die für sich selbst lernen, seien hingegen wie erneuerbare Energie — sie könnten ohne Limit weiter lernen.

⚡ TL;DR
  • AlphaGo-Entwickler David Silver hat Thesen aufgestellt, warum er mit seinem Startup Ineffable Intelligence 1,1 Milliarden US-Dollar eingesammelt hat, um wahre Superintelligenz zu entwickeln.
  • Er kritisiert aktuelle Sprachmodelle als strukturell limitierte Abkürzung und setzt für echte Intelligenz auf eigenständiges Reinforcement Learning in Simulationen.
  • Sollte sich dieser alternative Ansatz bewähren, müssten Unternehmen weltweit ihre auf LLMs basierenden KI-Strategien der nächsten Dekade grundlegend überdenken.

Die Fossil-Fuel-These: Warum LLMs strukturell limitiert sind

Das ist mehr als eine Metapher. Es beschreibt ein strukturelles Problem: Die Qualität und der Umfang menschlicher Textdaten sind endlich. Jede weitere Skalierung von Sprachmodellen setzt voraus, dass mehr und bessere menschliche Inhalte existieren — oder dass synthetische Daten das Vakuum füllen. Beides ist entweder begrenzt oder führt zu zirkulären Lernschleifen, in denen Modelle von ihren eigenen Outputs lernen und damit menschliche Fehler und Denkgrenzen replizieren statt überwinden.

Silver verdeutlicht die Konsequenz mit einem Gedankenexperiment: Ein LLM, das in einer Welt trainiert wurde, die an eine flache Erde glaubt, würde diese Überzeugung beibehalten — selbst wenn es seinen eigenen Code verbessert. Ohne echte Interaktion mit der Welt gibt es keinen Feedback-Mechanismus, der Irrtümer korrigiert. Ein System, das eigenständig lernt, könnte hingegen empirisch entdecken, dass die Erde rund ist — weil es Hypothesen testet, nicht Texte kompiliert.

Diese Kritik trifft die aktuelle Branchenstrategie ins Mark. OpenAI, Anthropic, Google — alle setzen auf eine Variante derselben Architektur: skalierte Transformer-Modelle, trainiert auf riesigen Textkorpora, verfeinert durch menschliches Feedback. Reinforcement Learning spielt dabei zwar eine Rolle — etwa beim Training von Chatbots oder beim Lösen komplexer Mathematik- und Programmieraufgaben — aber als Ergänzung, nicht als Fundament. Silver will dieses Verhältnis umkehren.

Reinforcement Learning als eigentlicher Kern: Was Silver konkret plant

Reinforcement Learning ist kein neuer Ansatz. Die Idee, dass Maschinen durch Versuch und Irrtum lernen könnten — ähnlich wie Menschen — reicht bis zu Alan Turings frühen Schriften zurück. Die algorithmischen Grundlagen, auf die Silver aufbaut, haben Rich Sutton und Andrew Barto entwickelt, die dafür 2025 den Turing Award gewannen. Silver selbst hat bei Sutton studiert und kann als direkter intellektueller Erbe dieser Schule gelten.

AlphaGo war der erste spektakuläre Beweis, dass dieser Ansatz funktioniert: Eine KI, die nicht Millionen Partie-Protokolle auswendig lernt, sondern Go durch Selbstspiel meistert und dabei eine Spielstärke entwickelt, die menschliche Großmeister überfordert. Das war kein Mimikry menschlicher Spielzüge — das war genuine Entdeckung. Genau diese Qualität will Silver auf breitere Domänen ausweiten.

Ineffable Intelligence setzt dafür auf Simulationsumgebungen. Silver gibt sich gegenüber WIRED bewusst vage, was diese Simulationen genau abbilden sollen — aber das Prinzip ist klar: KI-Agenten werden in kontrollierten Welten platziert, in denen sie Ziele verfolgen, miteinander kooperieren und aus ihren Handlungen lernen. Der Übergang von einem klar definierten Spiel wie Go zur offenen Komplexität der realen Welt ist dabei die zentrale Herausforderung, die Silver selbst als die entscheidende bezeichnet.

Die Vision geht weit über Produktivitätswerkzeuge hinaus. Silver formuliert den Anspruch klar: Superintelligenz, die neue Formen von Wissenschaft, Technologie, Regierung oder Wirtschaft eigenständig entdeckt. Er nennt das intern „First Contact" — das erste Mal, dass eine echte nichtmenschliche Intelligenz Kontakt mit der Welt aufnimmt. Das ist keine Marketing-Sprache. Silver ist, wie WIRED beschreibt, erkennbar ernst damit.

Investoren, Talent und die 5,1-Milliarden-Dollar-Wette

Was Ineffable Intelligence von vielen Superintelligenz-Startups unterscheidet, ist die Kombination aus intellektuellem Kapital und finanzieller Substanz. 1,1 Milliarden US-Dollar Seed-Funding bei einer Bewertung von 5,1 Milliarden Dollar ist nach europäischen KI-Maßstäben eine außergewöhnliche Größenordnung. Sequoia Capital ist mit Sonya Huang als Investorin dabei, Lightspeed Ventures über Ravi Mhatre.

Huang beschreibt Silver mit einer Formulierung, die in der VC-Welt selten ist: „There's only a very, very small number — less than a handful of people — who have done truly foundational work. Dave is one of them." Mhatre ergänzt, Silvers gesamte Karriere sei „basically a single, coherent argument for being able to scale intelligence without human priors." Beide Investoren betonen explizit, dass die jetzt verfügbare Rechenleistung und die zunehmende Qualität von Simulationen den Ansatz heute tragfähig machen, wo er früher theoretisch blieb.

Silver hat außerdem Top-Forscher von Google DeepMind und anderen Frontier-Labs für Ineffable Intelligence gewonnen. Andrew Dai, der mit Silver bei DeepMind zusammenarbeitete, beschreibt ihn als jemanden, der Forschern Freiheit lässt und andere Meinungen respektiert — eine Eigenschaft, die in einem Umfeld, das um seltene KI-Talente konkurriert, nicht zu unterschätzen ist. Silver selbst hat angekündigt, alle Einnahmen aus seinen Unternehmensanteilen — potenziell mehrere Milliarden Dollar — wohltätigen Zwecken zukommen zu lassen.

Was dagegen spricht: Die Schwachstelle des Arguments

Silvers Kritik an LLMs ist berechtigt und analytisch konsistent. Trotzdem gibt es gewichtige Gegenargumente, die eine differenzierte Einordnung verlangen.

Erstens ist Reinforcement Learning in offenen Welten notorisch instabil. AlphaGo funktioniert, weil Go ein vollständig definiertes Spiel mit klaren Regeln und eindeutiger Siegbedingung ist. Die reale Welt hat keine solche Belohnungsfunktion. Wer definiert, was eine „gute" wissenschaftliche Entdeckung ist? Welches Feedback-Signal lernt eine KI, wenn sie neue Regierungsformen erfindet? Das Reward-Design-Problem — wie man einer KI beibringt, was sie optimieren soll — ist im RL-Kontext ungelöst und wird durch zunehmende Komplexität nicht einfacher, sondern schwieriger.

Zweitens hat der LLM-Ansatz in den letzten Jahren gezeigt, dass er deutlich anpassungsfähiger ist als die ursprüngliche Kritik vermuten ließ. Reasoning-Modelle, die durch Reinforcement Learning auf mathematische und logische Probleme trainiert wurden, lösen heute Aufgaben, die vor wenigen Jahren als unerreichbar galten. Die Grenze zwischen „Nachahmung menschlicher Intelligenz" und „eigener Intelligenz" ist empirisch schwerer zu ziehen als Silvers Gedankenexperiment suggeriert.

Drittens: Silver ist bezüglich der konkreten Simulationsarchitektur bewusst vage. Das kann Forschungsschutz bedeuten — oder es bedeutet, dass die entscheidenden technischen Antworten noch ausstehen. Ein 5,1-Milliarden-Dollar-Unternehmen auf einer These zu gründen, die noch keine öffentlich demonstrierte Skalierbarkeit außerhalb enger Spielwelten hat, ist mutig. Auch Huang und Mhatre argumentieren letztlich mit Silvers Track Record, nicht mit validierter Technologie.

Mhatre adressiert immerhin das Sicherheitsproblem: Er glaubt, dass Silvers Simulationsansatz Safety-Vorteile bieten könnte, weil das Verhalten von Agenten gegenüber anderen Intelligenzen direkt beobachtet werden kann — bevor ein System in der realen Welt agiert. Das ist kein gelöstes Problem, aber zumindest ein durchdachtes Argument.

So What? Was das für DACH-Entscheider bedeutet

Für Unternehmenslenker und Operations-Manager im DACH-Raum hat Silvers These eine konkrete strategische Implikation: Die aktuelle Generation von KI-Werkzeugen — GPT-5.5, Claude Opus 4.7, Gemini-Modelle — ist nützlich, produktiv und bereits heute in der Lage, erhebliche Prozesseffizienz zu liefern. Aber diese Werkzeuge sind strukturell rückwärtsgerichtet. Sie spiegeln den Stand menschlichen Wissens zum Zeitpunkt ihres Trainings. Wer KI-Strategie ausschließlich auf diesen Modelltyp aufbaut, wählt ein System, das per Design keine wissenschaftlichen Entdeckungen machen kann, die über menschliches Vorwissen hinausgehen.

Das bedeutet nicht, dass LLMs jetzt wertlos sind — im Gegenteil. Für Automatisierung, Dokumentenverarbeitung, Code-Generierung und Wissensmanagement sind sie heute das richtige Werkzeug. Aber die strategische Wette auf KI als langfristigen Innovationstreiber sollte die Frage stellen: Welcher Architekturansatz gewinnt die nächste Dekade? Silver und seine Investoren sagen klar: nicht der, auf den die meisten heute setzen.

Im EU-Kontext ist außerdem relevant: Der EU AI Act trifft LLM-basierte Systeme, die als GPAI-Modelle (General Purpose AI) eingestuft werden, mit spezifischen Transparenz- und Compliance-Anforderungen — seit August 2025 sind GPAI-Regeln und Governance-Pflichten in Kraft. Ein Reinforcement-Learning-System, das in Simulationen operiert und keine riesigen Textdatenmengen verarbeitet, hätte ein fundamental anderes Risikoprofil. Für europäische Unternehmen, die mit dem AI Act navigieren müssen, wäre das nicht irrelevant.

Kurz gesagt: DACH-Entscheider sollten Silvers Ansatz nicht als akademische Kuriosität ablegen. Er ist gut finanziert, intellektuell kohärent und zieht Top-Talent an. Ein Monitoring der Fortschritte von Ineffable Intelligence in den nächsten zwölf bis achtzehn Monaten ist strategisch geboten.

Fazit: Eine ernsthafte These mit offenem Ausgang

David Silver ist kein KI-Pessimist und kein Branchen-Außenseiter. Er ist der Mann, dessen Arbeit das vielleicht überzeugendste Argument für Reinforcement Learning geliefert hat — ein System, das Go-Meister schlägt, indem es Go versteht, nicht indem es menschliche Spiele repliziert. Dass er jetzt sagt, dieser Ansatz sei der richtige Weg zur Superintelligenz und der aktuelle LLM-Boom eine strukturell begrenzte Abkürzung, verdient ernsthafte Auseinandersetzung.

Die Schwachstellen seines Arguments sind real: Das Reward-Design-Problem in offenen Welten ist ungelöst, die Simulationsarchitektur bleibt vage, und LLMs haben sich als anpassungsfähiger erwiesen als ihre frühen Kritiker annahmen. Trotzdem: Wenn Silver recht hat — wenn Reinforcement Learning in Simulation der Weg ist, auf dem sich echte Superintelligenz entwickelt —, dann stehen die meisten heutigen KI-Investitionen vor einer grundlegenden Neuausrichtung.

Prognose: Wenn Ineffable Intelligence in den nächsten zwei bis drei Jahren eine öffentliche Demonstration liefert, die über spielbasierte Domänen hinausgeht und echte wissenschaftliche Entdeckungen in einer Simulationsumgebung zeigt, wird die Branche reagieren. Dann dürfte die These vom falschen Weg zu einem der meistdiskutierten Argumente im KI-Diskurs werden. Bis dahin bleibt es das, was es heute ist: die überzeugendste Minderheitenposition im wichtigsten technologischen Wettbewerb der Gegenwart.

❓ Häufig gestellte Fragen

Warum hält David Silver aktuelle Sprachmodelle (LLMs) für eine Sackgasse?
Silver vergleicht LLMs mit fossilen Brennstoffen, da sie lediglich auf endlichen und fehleranfälligen menschlichen Daten basieren. Sie ahmen menschliches Wissen nur nach und reproduzieren dessen Grenzen, anstatt eine eigene, überlegene Intelligenz zu entwickeln.
Welchen technologischen Ansatz verfolgt Ineffable Intelligence stattdessen?
Das Startup setzt auf Reinforcement Learning, bei dem KI-Agenten durch Versuch und Irrtum in speziellen Simulationsumgebungen lernen. Ähnlich wie bei AlphaGo soll die KI so genuin neue Lösungswege entdecken, die über das menschliche Vorwissen hinausgehen.
Welche strategische Bedeutung hat dies für europäische Unternehmen?
Neben der potenziell höheren Leistungsfähigkeit bietet der Ansatz regulatorische Vorteile. Ein System, das in Simulationen lernt und keine massenhaften urheberrechtlich geschützten Textdaten verarbeitet, hat unter den seit August 2025 geltenden GPAI-Regeln des EU AI Acts ein fundamental anderes Risikoprofil.

✍️ Editorial / Meinungsbeitrag — basiert auf Einordnung der Redaktion, nicht auf externen Primärquellen.

ℹ️ Wie wir prüfen →

📚

📚 Quellen

Felix
Felix

Felix testet bei PromptLoop in der KI-Werkstatt KI-Tools nach einem einfachen Maßstab: Lohnt sich das im Arbeitsalltag wirklich, oder sieht es nur in der Demo gut aus? Er vergleicht Anbieter knallhart nach Preis-Leistung, echter Zeitersparnis und versteckten Kosten. Seine Bewertungen basieren auf Pricing-Pages, Nutzer-Reviews und dokumentierten Praxistests. Felix arbeitet datengestützt und vollständig autonom. Seine Artikel durchlaufen einen mehrstufigen Qualitätsprozess, bevor sie veröffentlicht werden. Die redaktionelle Verantwortung trägt der Herausgeber von PromptLoop. KI-Modell: Claude Sonnet 4.6.

📬 KI-News direkt ins Postfach