LLM-Token-Kostenrechner 2026
Was kostet dich GPT-5 vs. Claude vs. Gemini im echten Einsatz? Wähle einen Use-Case oder gib eigene Werte ein — wir rechnen für 65 Modelle gleichzeitig. Keine Anmeldung, keine Tracker, Live-Preise direkt aus unserer LLM-Registry.
So nutzt du den Rechner
- Use-Case wählen — oder rechts eigene Token-Zahlen eintragen.
- Volumen anpassen — wie oft pro Monat passiert das?
- Tabelle vergleichen — sortiert nach monatlichen Kosten. Spar-Tipp oben zeigt das günstigste Modell mit ähnlicher Quality.
- Permalink teilen oder Embed-Code kopieren — der Rechner läuft auch auf deiner Seite.
Warum Token-Kosten überhaupt rechnen?
Bei LLM-APIs zahlst du pro Token — nicht pro Anfrage. Ein Token ist ungefähr ein halbes deutsches Wort. Ein typischer Chatbot-Turn hat 800 Input- und 300 Output-Tokens; ein RAG-System mit Dokumenten-Kontext schnell 4 000 in / 600 out. Output-Tokens sind bei den meisten Anbietern 3- bis 5-mal teurer als Input. Dieser Rechner macht die Hochrechnung über alle 65 Modelle in unserer Registry transparent — inklusive USD→EUR-Umrechnung.
| # | Modell | Input/M | Output/M | € pro Monat | € pro Jahr | Relativ |
|---|
❓ Häufige Fragen zum Token-Kostenrechner
Wie genau sind die Preise?
Die Input/Output-Preise stammen täglich aus unserer LLM-Registry und sind mit den offiziellen Pricing-Seiten der Anbieter (OpenAI, Anthropic, Google, Mistral, DeepSeek, Meta und weiteren) sowie mit Artificial Analysis abgeglichen. Volumen-Rabatte, Caching-Discounts und Reserved-Capacity sind nicht berücksichtigt — der Rechner zeigt den Listenpreis pro 1 Million Tokens.
Was ist ein Token?
Ein Token ist die kleinste Einheit, in der ein Sprachmodell Text verarbeitet — meist ein halbes deutsches Wort oder eine kurze Silbe. Faustregel: 1.000 Tokens entsprechen rund 750 deutschen Wörtern. Der Tokenizer unterscheidet sich pro Modell, deshalb können dieselbe Eingabe bei OpenAI und Anthropic minimal unterschiedlich viele Tokens verbrauchen — für Kosten-Schätzungen ist die Abweichung in der Regel unter 5 Prozent.
Warum ist Output teurer als Input?
Das Generieren neuer Tokens ist rechenintensiver als das Lesen vorhandener — jeder Output-Token erfordert einen vollständigen Forward-Pass durch das Modell, während Input parallel verarbeitet wird. Bei den meisten Anbietern kostet Output 3- bis 5-mal so viel wie Input. Genau deshalb spart Prompt-Engineering, das die Antworten kürzer hält, mehr Geld als kompaktere Prompts.
Welches Modell ist für mich am günstigsten?
Das hängt vom Verhältnis Input/Output und vom Quality-Bedarf ab. Für reine Klassifikation reichen oft Lite-Modelle wie GPT-5 nano oder Gemini 2.5 Flash-Lite. Für Reasoning lohnt sich der Aufpreis für GPT-5, Claude Sonnet 4.5 oder Gemini 2.5 Pro. Im Rechner zeigt der Spar-Tipp oben das günstigste Modell mit ähnlicher Quality wie das aktuell teuerste — ein guter Startpunkt für A/B-Tests. Mehr im Modell-Vergleich.
Werden Embedding- oder Bild-Modelle berücksichtigt?
Aktuell rechnet der Rechner mit Text-Generation-Preisen (Chat/Completion-API). Embeddings, Bild-Inputs (Vision) und Audio-Tokens haben separate Preisstrukturen und sind nicht enthalten. Für Bild-Generierung gibt es typischerweise einen Pauschalpreis pro Bild — diese Modelle blenden wir hier aus.
Kann ich den Rechner auf meiner Seite einbetten?
Ja. Unter der Tabelle findest du einen Embed-Code für ein responsives iFrame. Der Embed-Modus läuft ohne Tracking, ohne Anmeldung und mit "Powered by"-Backlink — kostenlos für nicht-kommerzielle wie kommerzielle Seiten.
Wie aktuell sind die Daten?
Die Modell-Registry wird mehrmals täglich automatisch synchronisiert. Sobald ein Anbieter Preise ändert oder ein neues Modell veröffentlicht, taucht es spätestens nach 24 Stunden im Rechner auf. Für Quality-Werte nutzen wir den Artificial-Analysis-Intelligence-Index, der wöchentlich aktualisiert wird. Eine vollständige Liste aller Modelle siehst du im Leaderboard.