Silvers Kernargument lässt sich in einem Satz zusammenfassen: LLMs lernen von menschlicher Intelligenz, anstatt eine eigene zu entwickeln. Gegenüber WIRED formulierte er es so: „Human data is like a kind of fossil fuel that has provided an amazing shortcut." Systeme, die für sich selbst lernen, seien hingegen wie erneuerbare Energie — sie könnten ohne Limit weiter lernen.
- AlphaGo-Entwickler David Silver hat Thesen aufgestellt, warum er mit seinem Startup Ineffable Intelligence 1,1 Milliarden US-Dollar eingesammelt hat, um wahre Superintelligenz zu entwickeln.
- Er kritisiert aktuelle Sprachmodelle als strukturell limitierte Abkürzung und setzt für echte Intelligenz auf eigenständiges Reinforcement Learning in Simulationen.
- Sollte sich dieser alternative Ansatz bewähren, müssten Unternehmen weltweit ihre auf LLMs basierenden KI-Strategien der nächsten Dekade grundlegend überdenken.
Die Fossil-Fuel-These: Warum LLMs strukturell limitiert sind
Das ist mehr als eine Metapher. Es beschreibt ein strukturelles Problem: Die Qualität und der Umfang menschlicher Textdaten sind endlich. Jede weitere Skalierung von Sprachmodellen setzt voraus, dass mehr und bessere menschliche Inhalte existieren — oder dass synthetische Daten das Vakuum füllen. Beides ist entweder begrenzt oder führt zu zirkulären Lernschleifen, in denen Modelle von ihren eigenen Outputs lernen und damit menschliche Fehler und Denkgrenzen replizieren statt überwinden.
Silver verdeutlicht die Konsequenz mit einem Gedankenexperiment: Ein LLM, das in einer Welt trainiert wurde, die an eine flache Erde glaubt, würde diese Überzeugung beibehalten — selbst wenn es seinen eigenen Code verbessert. Ohne echte Interaktion mit der Welt gibt es keinen Feedback-Mechanismus, der Irrtümer korrigiert. Ein System, das eigenständig lernt, könnte hingegen empirisch entdecken, dass die Erde rund ist — weil es Hypothesen testet, nicht Texte kompiliert.
Diese Kritik trifft die aktuelle Branchenstrategie ins Mark. OpenAI, Anthropic, Google — alle setzen auf eine Variante derselben Architektur: skalierte Transformer-Modelle, trainiert auf riesigen Textkorpora, verfeinert durch menschliches Feedback. Reinforcement Learning spielt dabei zwar eine Rolle — etwa beim Training von Chatbots oder beim Lösen komplexer Mathematik- und Programmieraufgaben — aber als Ergänzung, nicht als Fundament. Silver will dieses Verhältnis umkehren.
Reinforcement Learning als eigentlicher Kern: Was Silver konkret plant
Reinforcement Learning ist kein neuer Ansatz. Die Idee, dass Maschinen durch Versuch und Irrtum lernen könnten — ähnlich wie Menschen — reicht bis zu Alan Turings frühen Schriften zurück. Die algorithmischen Grundlagen, auf die Silver aufbaut, haben Rich Sutton und Andrew Barto entwickelt, die dafür 2025 den Turing Award gewannen. Silver selbst hat bei Sutton studiert und kann als direkter intellektueller Erbe dieser Schule gelten.
AlphaGo war der erste spektakuläre Beweis, dass dieser Ansatz funktioniert: Eine KI, die nicht Millionen Partie-Protokolle auswendig lernt, sondern Go durch Selbstspiel meistert und dabei eine Spielstärke entwickelt, die menschliche Großmeister überfordert. Das war kein Mimikry menschlicher Spielzüge — das war genuine Entdeckung. Genau diese Qualität will Silver auf breitere Domänen ausweiten.
Ineffable Intelligence setzt dafür auf Simulationsumgebungen. Silver gibt sich gegenüber WIRED bewusst vage, was diese Simulationen genau abbilden sollen — aber das Prinzip ist klar: KI-Agenten werden in kontrollierten Welten platziert, in denen sie Ziele verfolgen, miteinander kooperieren und aus ihren Handlungen lernen. Der Übergang von einem klar definierten Spiel wie Go zur offenen Komplexität der realen Welt ist dabei die zentrale Herausforderung, die Silver selbst als die entscheidende bezeichnet.
Die Vision geht weit über Produktivitätswerkzeuge hinaus. Silver formuliert den Anspruch klar: Superintelligenz, die neue Formen von Wissenschaft, Technologie, Regierung oder Wirtschaft eigenständig entdeckt. Er nennt das intern „First Contact" — das erste Mal, dass eine echte nichtmenschliche Intelligenz Kontakt mit der Welt aufnimmt. Das ist keine Marketing-Sprache. Silver ist, wie WIRED beschreibt, erkennbar ernst damit.
Investoren, Talent und die 5,1-Milliarden-Dollar-Wette
Was Ineffable Intelligence von vielen Superintelligenz-Startups unterscheidet, ist die Kombination aus intellektuellem Kapital und finanzieller Substanz. 1,1 Milliarden US-Dollar Seed-Funding bei einer Bewertung von 5,1 Milliarden Dollar ist nach europäischen KI-Maßstäben eine außergewöhnliche Größenordnung. Sequoia Capital ist mit Sonya Huang als Investorin dabei, Lightspeed Ventures über Ravi Mhatre.
Huang beschreibt Silver mit einer Formulierung, die in der VC-Welt selten ist: „There's only a very, very small number — less than a handful of people — who have done truly foundational work. Dave is one of them." Mhatre ergänzt, Silvers gesamte Karriere sei „basically a single, coherent argument for being able to scale intelligence without human priors." Beide Investoren betonen explizit, dass die jetzt verfügbare Rechenleistung und die zunehmende Qualität von Simulationen den Ansatz heute tragfähig machen, wo er früher theoretisch blieb.
Silver hat außerdem Top-Forscher von Google DeepMind und anderen Frontier-Labs für Ineffable Intelligence gewonnen. Andrew Dai, der mit Silver bei DeepMind zusammenarbeitete, beschreibt ihn als jemanden, der Forschern Freiheit lässt und andere Meinungen respektiert — eine Eigenschaft, die in einem Umfeld, das um seltene KI-Talente konkurriert, nicht zu unterschätzen ist. Silver selbst hat angekündigt, alle Einnahmen aus seinen Unternehmensanteilen — potenziell mehrere Milliarden Dollar — wohltätigen Zwecken zukommen zu lassen.
Was dagegen spricht: Die Schwachstelle des Arguments
Silvers Kritik an LLMs ist berechtigt und analytisch konsistent. Trotzdem gibt es gewichtige Gegenargumente, die eine differenzierte Einordnung verlangen.
Erstens ist Reinforcement Learning in offenen Welten notorisch instabil. AlphaGo funktioniert, weil Go ein vollständig definiertes Spiel mit klaren Regeln und eindeutiger Siegbedingung ist. Die reale Welt hat keine solche Belohnungsfunktion. Wer definiert, was eine „gute" wissenschaftliche Entdeckung ist? Welches Feedback-Signal lernt eine KI, wenn sie neue Regierungsformen erfindet? Das Reward-Design-Problem — wie man einer KI beibringt, was sie optimieren soll — ist im RL-Kontext ungelöst und wird durch zunehmende Komplexität nicht einfacher, sondern schwieriger.
Zweitens hat der LLM-Ansatz in den letzten Jahren gezeigt, dass er deutlich anpassungsfähiger ist als die ursprüngliche Kritik vermuten ließ. Reasoning-Modelle, die durch Reinforcement Learning auf mathematische und logische Probleme trainiert wurden, lösen heute Aufgaben, die vor wenigen Jahren als unerreichbar galten. Die Grenze zwischen „Nachahmung menschlicher Intelligenz" und „eigener Intelligenz" ist empirisch schwerer zu ziehen als Silvers Gedankenexperiment suggeriert.
Drittens: Silver ist bezüglich der konkreten Simulationsarchitektur bewusst vage. Das kann Forschungsschutz bedeuten — oder es bedeutet, dass die entscheidenden technischen Antworten noch ausstehen. Ein 5,1-Milliarden-Dollar-Unternehmen auf einer These zu gründen, die noch keine öffentlich demonstrierte Skalierbarkeit außerhalb enger Spielwelten hat, ist mutig. Auch Huang und Mhatre argumentieren letztlich mit Silvers Track Record, nicht mit validierter Technologie.
Mhatre adressiert immerhin das Sicherheitsproblem: Er glaubt, dass Silvers Simulationsansatz Safety-Vorteile bieten könnte, weil das Verhalten von Agenten gegenüber anderen Intelligenzen direkt beobachtet werden kann — bevor ein System in der realen Welt agiert. Das ist kein gelöstes Problem, aber zumindest ein durchdachtes Argument.
So What? Was das für DACH-Entscheider bedeutet
Für Unternehmenslenker und Operations-Manager im DACH-Raum hat Silvers These eine konkrete strategische Implikation: Die aktuelle Generation von KI-Werkzeugen — GPT-5.5, Claude Opus 4.7, Gemini-Modelle — ist nützlich, produktiv und bereits heute in der Lage, erhebliche Prozesseffizienz zu liefern. Aber diese Werkzeuge sind strukturell rückwärtsgerichtet. Sie spiegeln den Stand menschlichen Wissens zum Zeitpunkt ihres Trainings. Wer KI-Strategie ausschließlich auf diesen Modelltyp aufbaut, wählt ein System, das per Design keine wissenschaftlichen Entdeckungen machen kann, die über menschliches Vorwissen hinausgehen.
Das bedeutet nicht, dass LLMs jetzt wertlos sind — im Gegenteil. Für Automatisierung, Dokumentenverarbeitung, Code-Generierung und Wissensmanagement sind sie heute das richtige Werkzeug. Aber die strategische Wette auf KI als langfristigen Innovationstreiber sollte die Frage stellen: Welcher Architekturansatz gewinnt die nächste Dekade? Silver und seine Investoren sagen klar: nicht der, auf den die meisten heute setzen.
Im EU-Kontext ist außerdem relevant: Der EU AI Act trifft LLM-basierte Systeme, die als GPAI-Modelle (General Purpose AI) eingestuft werden, mit spezifischen Transparenz- und Compliance-Anforderungen — seit August 2025 sind GPAI-Regeln und Governance-Pflichten in Kraft. Ein Reinforcement-Learning-System, das in Simulationen operiert und keine riesigen Textdatenmengen verarbeitet, hätte ein fundamental anderes Risikoprofil. Für europäische Unternehmen, die mit dem AI Act navigieren müssen, wäre das nicht irrelevant.
Kurz gesagt: DACH-Entscheider sollten Silvers Ansatz nicht als akademische Kuriosität ablegen. Er ist gut finanziert, intellektuell kohärent und zieht Top-Talent an. Ein Monitoring der Fortschritte von Ineffable Intelligence in den nächsten zwölf bis achtzehn Monaten ist strategisch geboten.
Fazit: Eine ernsthafte These mit offenem Ausgang
David Silver ist kein KI-Pessimist und kein Branchen-Außenseiter. Er ist der Mann, dessen Arbeit das vielleicht überzeugendste Argument für Reinforcement Learning geliefert hat — ein System, das Go-Meister schlägt, indem es Go versteht, nicht indem es menschliche Spiele repliziert. Dass er jetzt sagt, dieser Ansatz sei der richtige Weg zur Superintelligenz und der aktuelle LLM-Boom eine strukturell begrenzte Abkürzung, verdient ernsthafte Auseinandersetzung.
Die Schwachstellen seines Arguments sind real: Das Reward-Design-Problem in offenen Welten ist ungelöst, die Simulationsarchitektur bleibt vage, und LLMs haben sich als anpassungsfähiger erwiesen als ihre frühen Kritiker annahmen. Trotzdem: Wenn Silver recht hat — wenn Reinforcement Learning in Simulation der Weg ist, auf dem sich echte Superintelligenz entwickelt —, dann stehen die meisten heutigen KI-Investitionen vor einer grundlegenden Neuausrichtung.
Prognose: Wenn Ineffable Intelligence in den nächsten zwei bis drei Jahren eine öffentliche Demonstration liefert, die über spielbasierte Domänen hinausgeht und echte wissenschaftliche Entdeckungen in einer Simulationsumgebung zeigt, wird die Branche reagieren. Dann dürfte die These vom falschen Weg zu einem der meistdiskutierten Argumente im KI-Diskurs werden. Bis dahin bleibt es das, was es heute ist: die überzeugendste Minderheitenposition im wichtigsten technologischen Wettbewerb der Gegenwart.
❓ Häufig gestellte Fragen
✍️ Editorial / Meinungsbeitrag — basiert auf Einordnung der Redaktion, nicht auf externen Primärquellen.