Tokenmaxxing: Warum Token-Verbrauch kein…

Token-Verbrauch als Leistungsindikator für KI-Nutzung ist so sinnvoll wie „Anzahl der getippten Zeichen" als Produktivitätsmaß für Schreibkräfte — und genauso weit verbreitet. Unternehmen wie Meta und Shopify haben laut The Register Token-Ausgaben als Key Performance Indicator eingeführt, Mitarbeiter beantworten diesen Anreiz mit exzessivem KI-Einsatz — unabhängig davon, ob dieser Einsatz tatsächlich Geschäftswert erzeugt. Das Phänomen trägt mittlerweile einen Namen: Tokenmaxxing. Und es ist teuer, messbar falsch und ein Symptom eines tieferen Steuerungsproblems in der Unternehmens-KI. Die Frage, was KI kostet, ist dabei gar nicht der eigentliche Fehler — der Fehler ist, dass diese Frage zu früh gestellt wird, bevor überhaupt klar ist, wofür die KI eingesetzt werden soll.

⚡ TL;DR

Die Nutzung von Token-Verbrauch als Produktivitätsmetrik führt zum teuren "Tokenmaxxing", bei dem Mitarbeiter KI ohne echten geschäftlichen Mehrwert nur für mehr Scheinaktivität einsetzen.
Weil API-Preise neben reinen Infrastrukturkosten auch Modellentwicklung und Margen beinhalten, verzerren sie den Blick auf die tatsächliche Kostenstruktur von KI-Anwendungen drastisch.
Um einen messbaren ROI zu erzielen, müssen Entscheider vor der KI-Einführung konkrete Geschäftsziele definieren, statt planlos in reine Technologie zu investieren.

Die Dimension dieser Fehlinvestition lässt sich beziffern: Die privaten KI-Investitionen in den USA erreichten 2025 einen Wert von 285,9 Milliarden Dollar, wie aus dem Artificial Intelligence Index Report 2026 der Stanford HAI hervorgeht. Gleichzeitig stieg die Leistungskapazität von KI-Rechenzentren auf 29,6 GW — vergleichbar mit dem Spitzenbedarf des Bundesstaates New York. Der allein für GPT-4o-Inferenz anfallende jährliche Wasserverbrauch könnte laut demselben Bericht den Trinkwasserbedarf von 12 Millionen Menschen übersteigen. Diese Zahlen illustrieren, dass KI keine abstrakte Software-Ausgabe ist, sondern physische Infrastruktur mit realen Kapazitätsgrenzen und Ressourcenkosten.

Was ein Token wirklich kostet — und warum der Anbieterpreis irreführt

Bevor Unternehmen sinnvoll über KI-Kosten diskutieren können, brauchen sie ein präzises Verständnis der Kostenstruktur. Devansh, ML-Forscher und Head of AI beim Legal-Startup Iqidis, hat die Infrastrukturkosten eines Tokens durchgerechnet. Bei Inferenz auf einer Nvidia H100 GPU, gemietet für 2,50 Dollar pro Stunde und bei 100 Prozent Auslastung mit 185 Tokens pro Sekunde, ergibt sich ein Basispreis von etwa 0,0038 Dollar pro Million Tokens. Das klingt verschwindend gering.

Der Haken: Keine Organisation arbeitet mit 100 Prozent GPU-Auslastung. Bei 30 Prozent Auslastung steigt der Preis auf rund 0,013 Dollar pro Million Tokens, bei 10 Prozent auf rund 0,038 Dollar. Das sind Faktoren von 3,4x bzw. 10x gegenüber dem theoretischen Minimum. Anthropic berechnet für sein aktuelles Modell Claude Opus 4.7 derzeit 5 Dollar pro Million Eingabe-Tokens und 25 Dollar pro Million Ausgabe-Tokens. Googles Gemma 4 26B A4B liegt laut OpenRouter beim gewichteten Durchschnitt für Eingaben bei 0,096 Dollar pro Million Tokens — ein Bruchteil davon, aber auf einem anderen Fähigkeitsniveau.

Was erklärt den massiven Spread zwischen Infrastrukturkosten und API-Preisen? Devansh bringt es präzise auf den Punkt: Ein Token-Preis ist kein reiner Inferenzpreis. Er beinhaltet Modellentwicklung, laufende Forschung, kontinuierliche Updates sowie Marginer wartungen der Anbieter. Die API-Preise westlicher Labore sind laut Devansh ein guter Indikator für deren interne Kosten — inklusive der erwarteten Marge. Für Entscheider bedeutet das: Wer nur den Token-Preis im Blick hat, sieht nur einen Bruchteil der wirtschaftlichen Realität.

Tokenmaxxing: Die neueste Ära der falschen Produktivitätsmetrik

Das eigentliche Problem beginnt nicht beim Preis, sondern beim Incentive-Design. Wenn Unternehmen Token-Ausgaben als KPI definieren, beantworten Mitarbeiter diesen Anreiz rational: Sie maximieren Token-Verbrauch, um ihre scheinbare KI-Nutzung zu demonstrieren. Devansh nennt das direkt die „neueste Ära der Dummheit" — eine Fortsetzung veralteter Proxy-Metriken wie „Anzahl der Code-Zeilen" oder „getippte Wörter pro Stunde".

Das strukturelle Problem ist identisch: Eine leicht messbare Hilfsgröße ersetzt die eigentlich relevante, aber schwer messbare Ausgangsgröße. Lines of Code korrelierten nie sauber mit Software-Qualität. Token-Verbrauch korreliert laut Devansh — und er betont, dass er das empirisch untersucht hat — nicht direkt mit Produktivität. Für Operations Manager bedeutet das eine konkrete Gefahr: Wer seine Teams nach Token-Leaderboards steuert, kann massiv in Aktivität investieren und gleichzeitig kaum messbaren Geschäftswert erzeugen.

Dabei existiert ein strukturelles Nutzenpotenzial in der freien Exploration: Da noch nicht vollständig klar ist, wo LLMs am besten eingesetzt werden können, hat unkontrolliertes Token-Experimentieren einen gewissen Entdeckungswert. Neue Workflows entstehen oft durch Ausprobieren, nicht durch Top-down-Planung. Doch das ist ein Argument für kontrollierte Pilotprojekte — kein Argument für Token-Leaderboards als Dauerzustand.

ROI-Messung: Was Fortune-100-Unternehmen falsch machen

Bob Venero, CEO der IT-Beratung Future Tech Enterprise, beschreibt das Muster seiner Fortune-100-Kunden schonungslos: Viele Unternehmen starten KI-Projekte, ohne klare Ziele zu definieren — sie werfen Geld in Richtung Technologie, ohne den gewünschten Geschäftsoutcome vorab zu spezifizieren. Die Aufgabe seiner Beratung bestehe zunächst darin, den angestrebten Geschäftsoutcome zu identifizieren — der dann möglicherweise KI beinhalte, aber nicht notwendigerweise.

Konkret illustriert: Future Tech Enterprise half Northrop Grumman bei der Implementierung einer Nvidia Enterprise AI Factory, um KI-Workloads für relevante Verteidigungsprojekte des Unternehmens zu betreiben. Das ist das Gegenteil von Tokenmaxxing — ein definierter Use Case mit definierten Anforderungen, bevor Infrastruktur beschafft wird.

Venero benennt einen weiteren Kostentreiber, der ROI-Kalkulationen derzeit massiv erschwert: „Ramageddon" — die RAM-Knappheit durch den KI-Compute-Boom. Er verweist auf OpenAIs Verpflichtung zum Kauf von Speicherchips bei Samsung und SK Hynix sowie auf den Schwenk der OEM-Hersteller wie Micron in Richtung High-Bandwidth-Memory als Katalysatoren der aktuellen Engpasssituation. Die Konsequenz: Alles sei teurer geworden, und zwar laut Venero um etwa das Dreifache im Vergleich zu sechs Monaten zuvor. Wer unter diesen Bedingungen ROI-Projektionen aus dem Vorjahr verwendet, rechnet mit falschen Grundannahmen.

Die Produktionsrate von KI-Projekten verdeutlicht das Problem. Ohne gezielte Steuerung landen laut Venero nur etwa 15 Prozent der Prototypen in echten Produktivsystemen. Mit strukturierter Begleitung — klare Zieldefinition, Outcome-Messung, Use-Case-Selektion — steigt diese Quote auf 45 bis 50 Prozent. Wer hingegen „KI um der KI willen" betreibt, komme auf rund 5 Prozent. Das ist keine marginale Differenz — das ist der Unterschied zwischen einem KI-Programm und einer Innovationskulisse.

Was dagegen spricht: Der Fall für Verbrauchsoptimierung als sinnvolle Übergangsstrategie

Es wäre zu einfach, Tokenmaxxing als reine Fehlinvestition abzutun. In einer frühen Adoptionsphase, in der Unternehmen noch nicht wissen, wie LLMs ihren spezifischen Kontext verbessern können, hat hoher Token-Verbrauch einen legitimen explorativen Wert. TechCrunch berichtete im April 2026, dass Entwickler trotz massiver Token-Budgets zwar mehr Code produzieren, aber ein unverhältnismäßig hoher Anteil davon in der Produktion wegfällt — also nie live geht oder nicht funktioniert. Das zeigt: Exploration ohne Qualitätsfilter ist nicht neutral, sondern aktiv kontraproduktiv, weil sie technische Schulden aufbaut.

Außerdem gibt es legitime Szenarien, in denen hohe Token-Ausgaben gerechtfertigt sind. Im juristischen Bereich etwa — Devansh nennt dieses Beispiel explizit — können Kosten häufig an Kunden weitergegeben werden, sofern Transparenz über den Einsatz und den erzielten Nutzen besteht. In hochregulierten Branchen, wo Nachvollziehbarkeit rechtlich erforderlich ist, kann ausführliche Token-Nutzung ein Feature sein, keine Verschwendung. Der Unterschied liegt in der Intentionalität: bewusste Dokumentation versus reflexives Maximieren.

Auch die Cloud-Abhängigkeit verdient eine differenzierte Betrachtung. Venero äußert sich skeptisch gegenüber Off-Premise-KI und verweist auf Stabilitätsrisiken: Office 365 ist bereits mehrfach ausgefallen. Wenn ein Cloud-Ausfall ein Unternehmen eine Million Dollar pro Minute kostet, verschiebt sich die Build-vs.-Buy-Entscheidung fundamental. On-Premise-Infrastruktur hat dann nicht nur technische, sondern klare betriebswirtschaftliche Argumente — auch wenn die Initialkosten höher sind.

So What? Strategische Implikationen für DACH-Entscheider

Für Operations Manager und Entscheider im DACH-Raum verdichten sich die beschriebenen Dynamiken zu einer konkreten Handlungsanforderung. Der Anreiz, KI schnell zu skalieren, ist real — der Wettbewerbsdruck existiert. Doch die Antwort auf diesen Druck über Token-Leaderboards zu operationalisieren, führt in eine Falle: Du bezahlst für Aktivität, nicht für Ergebnisse.

Der erste Schritt ist die Trennung von Adoption und Outcome. KI-Adoption misst, ob Mitarbeiter das Tool verwenden. KI-Outcome misst, ob sich dadurch ein spezifischer Geschäftsprozess verbessert hat — Durchlaufzeiten, Fehlerquoten, Konversionsraten, Entscheidungsqualität. Nur letzteres ist ROI-relevant. Das klingt trivial, wird aber laut Venero in der Mehrheit der Fortune-100-Implementierungen nicht von Anfang an sauber definiert.

Konkret für den Mittelstand bedeutet das: Vor jeder KI-Beschaffung sollte ein Use-Case-Assessment stehen, das drei Fragen beantwortet — welcher Prozess wird verändert, wie wird der Erfolg gemessen, und wer ist accountable für das Ergebnis. Ohne diese Grundlage sind auch die günstigsten Token-Preise am Markt nur ein weiterer Kostenblock ohne Gegenwert. Im Hinblick auf den EU AI Act, dessen Hochrisiko-Bestimmungen ab dem 2. August 2026 greifen, kommen für bestimmte KI-Anwendungen — etwa in HR, Kreditvergabe oder kritischer Infrastruktur — zusätzliche Dokumentations- und Transparenzpflichten hinzu, die bei der Total-Cost-of-Ownership zwingend zu berücksichtigen sind.

Die Infrastrukturentscheidung — Cloud vs. On-Premise — ist dabei keine technische, sondern eine Risikomanagement-Entscheidung. Wer kritische Prozesse auf Cloud-KI aufbaut, muss Ausfallkosten und Abhängigkeitsrisiken in die Kalkulation einbeziehen. Die aktuelle RAM-Knappheit und die damit verbundene Kostensteigerung machen diese Rechnung noch wichtiger: ROI-Projektionen müssen auf aktuellen Marktpreisen basieren, nicht auf Zahlen von vor einem Jahr.

Fazit: Wer die falsche Frage zuerst stellt, bekommt die falsche Antwort

Die eigentliche These dieses Artikels ist keine technische — sie ist organisatorisch. Tokenmaxxing ist kein Versagen einzelner Mitarbeiter, die zu viel KI nutzen. Es ist das vorhersehbare Ergebnis eines Incentive-Designs, das Aktivität belohnt statt Ergebnis. Und es ist ein Symptom des übergeordneten Problems: Unternehmen fragen zuerst „Was kostet KI?" und dann „Wofür nutzen wir sie?" — statt umgekehrt.

Die Prognose ist klar: Unternehmen, die in den kommenden zwölf Monaten keine Use-Case-Selektion und Outcome-Messung für ihre KI-Programme einführen, werden mit hoher Wahrscheinlichkeit in zwei bis drei Jahren enttäuschende ROI-Bilanzen vorlegen — und die Technologie als überschätzt abstempeln, obwohl das eigentliche Problem ihre eigene Steuerung war. Wer hingegen jetzt die Grundarbeit leistet — Zieldefinition, Outcome-Metriken, Infrastruktur-Risikobewertung — positioniert sich für eine Produktionsrate, die weit über dem Marktdurchschnitt liegt. KI ist kein Selbstläufer. Aber sie ist auch kein Glücksspiel, wenn man weiß, was man damit erreichen will.

Token-Rechner wird geladen…

❓ Häufig gestellte Fragen

▶ Was versteht man unter dem Begriff "Tokenmaxxing"?

Tokenmaxxing beschreibt das Phänomen, dass Mitarbeiter ihren KI-Einsatz reflexartig maximieren, weil das Management den reinen Token-Verbrauch fälschlicherweise als Leistungsindikator nutzt. Dies führt zu exzessiver Aktivität, die hohe Kosten verursacht, ohne einen messbaren Geschäftswert zu erzeugen.

▶ Warum scheitern KI-Projekte in vielen großen Unternehmen?

Viele Konzerne investieren reflexartig in KI-Infrastruktur, ohne vorab den gewünschten geschäftlichen Nutzen oder klare Anwendungsfälle zu definieren. Ohne diese systematische Steuerung und Zielsetzung schaffen es am Ende nur etwa 15 Prozent der Prototypen in den echten Produktivbetrieb.

▶ Warum sind die Token-Preise der KI-Anbieter so viel höher als die reinen Rechenzentrumskosten?

API-Preise decken nicht nur die reinen Inferenz- und Serverkosten ab, sondern beinhalten auch Ausgaben für Modellentwicklung, laufende Forschung und regelmäßige Updates. Zudem kalkulieren die westlichen KI-Labore eine Gewinnmarge mit ein, weshalb der Anbieterpreis die eigentlichen Infrastrukturkosten weit übersteigt.

📰 Recherchiert auf Basis von 4 Primärquellen (theregister.com, hai.stanford.edu, techcrunch.com, …)

ℹ️ Wie wir prüfen →

📚 Quellen

Was ein Token wirklich kostet — und warum der Anbieterpreis irreführt

Tokenmaxxing: Die neueste Ära der falschen Produktivitätsmetrik

ROI-Messung: Was Fortune-100-Unternehmen falsch machen

Was dagegen spricht: Der Fall für Verbrauchsoptimierung als sinnvolle Übergangsstrategie

So What? Strategische Implikationen für DACH-Entscheider

Fazit: Wer die falsche Frage zuerst stellt, bekommt die falsche Antwort

❓ Häufig gestellte Fragen

Das könnte dich auch interessieren

Technofaschismus: Von Japans Techno-Bürokraten zu Big Tech und KI-Überwachung

Google Cloud: "Developer loyalty is at zero" — und das ist die Strategie

OpenAIs neue Prinzipien: Weniger AGI-Versprechen, mehr Wettbewerbslogik