Token — PromptLoop Glossar

Was ist ein Token?

Ein Token ist die atomare Verarbeitungseinheit in Large Language Models (LLMs). Er kann ein vollständiges Wort sein, ein Wortteil (sogenanntes Subwort), ein einzelnes Zeichen oder ein Satzzeichen. Das Wort "Tokenisierung" etwa wird typischerweise in mehrere Tokens zerlegt. Diese Granularität ist kein Zufall: Sie entstand als pragmatische Antwort auf das Problem, dass ein rein zeichenbasierter Ansatz zu rechenintensiv und ein rein wortbasierter Ansatz zu unflexibel gegenüber unbekannten Wörtern wäre. Tokens sind damit der Kompromiss, auf dem die gesamte moderne Natural Language Processing (NLP)-Architektur aufbaut.

Wie funktioniert ein Token?

Der Prozess beginnt mit der Tokenisierung: Ein Rohtext wird mithilfe eines Tokenizers in eine Sequenz von Token-IDs umgewandelt. Das am weitesten verbreitete Verfahren dafür ist Byte-Pair-Encoding (BPE), das häufig auftretende Zeichenkombinationen iterativ zu neuen Tokens zusammenfasst. Das Ergebnis ist ein Vokabular aus tens of thousands Einträgen. Jede Token-ID wird anschließend in einen hochdimensionalen Embedding-Vektor übersetzt, mit dem das Modell rechnet. Das LLM verarbeitet diese Vektoren durch seine Transformer-Architektur mit Attention-Mechanismen, die kontextuelle Beziehungen zwischen Tokens modellieren. Die Ausgabe ist wiederum eine Token-Sequenz, die der Tokenizer zurück in lesbaren Text übersetzt. Neuere Forschungsansätze aus dem Bereich der semantischen Kommunikation (SemCom) gehen noch weiter: Hier kodieren Tokens nicht mehr nur sprachliche Einheiten, sondern semantische Vektoren, die intentionale Bedeutungen übertragen – relevant für agentenbasierte Netzwerke wie autonome Fahrzeugflotten oder Drohnen-Schwärme, wo Echtzeit-Kollaboration redundante Bit-Übertragung minimieren muss.

Token in der Praxis

Der direkteste Berührungspunkt für die meisten Entwickler ist das Kontext-Fenster: LLMs können nur eine begrenzte Anzahl an Tokens gleichzeitig verarbeiten – also sowohl Eingabe (Prompt) als auch Ausgabe zusammen. Wer komplexe Dokumente analysiert, muss diese Grenze aktiv managen. Zweiter zentraler Use Case ist die Kostensteuerung: Cloud-APIs für LLMs werden nahezu universell nach Token-Verbrauch abgerechnet, weshalb Prompt-Engineering auch immer Token-Engineering ist. Drittens spielen Tokens eine Schlüsselrolle bei der Modell-Evaluation: Der Ansatz LLM-as-a-Judge nutzt Token-Sequenzen, um generierte Texte automatisiert auf Qualität und Fehler zu prüfen – ein etabliertes Verfahren in der NLP-Forschung, das menschliche Annotation in großem Maßstab ersetzt.

Vorteile und Grenzen

Die Stärke des Token-Ansatzes liegt in seiner Flexibilität und Effizienz: Subwort-Tokenisierung wie BPE handhabt unbekannte Wörter, Fachbegriffe und mehrsprachige Texte deutlich robuster als rein wortbasierte Methoden. Tokens ermöglichen es, Rechenoperationen auf eine handhabbare Vokabulargröße zu komprimieren, ohne semantische Auflösung zu verlieren. Die Grenzen sind jedoch real: Tokens sind sprachabhängig – nicht-lateinische Schriftsysteme und agglutinierende Sprachen wie Finnisch oder Türkisch werden oft ineffizienter tokenisiert und verbrauchen pro Informationseinheit mehr Tokens als Englisch. Das hat direkte Kostennachteile. Zudem bilden Tokens keine linguistischen Einheiten ab, die Menschen intuitiv verstehen – was Debugging und Fehleranalyse erschwert. Und schließlich: Das Kontext-Fenster als harte Token-Grenze bleibt eine architektonische Beschränkung, auch wenn es in den letzten Jahren massiv gewachsen ist.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen einem Token und einem Wort?

Ein Wort und ein Token sind nicht dasselbe. Ein einzelnes Wort kann aus mehreren Tokens bestehen, besonders bei langen oder zusammengesetzten Begriffen. Faustformel: 100 Tokens entsprechen ungefähr 75 englischen Wörtern. In anderen Sprachen, etwa Deutsch mit langen Komposita, kann das Verhältnis schlechter ausfallen.

▶ Warum ist die Token-Anzahl für KI-Kosten relevant?

Die meisten LLM-APIs rechnen nach Verbrauch ab – getrennt nach Input-Tokens (dein Prompt) und Output-Tokens (die Antwort des Modells). Je länger der Kontext und je ausführlicher die Antwort, desto höher die Kosten. Effizientes Prompt-Design reduziert den Token-Verbrauch direkt und senkt damit den API-Preis pro Anfrage.

▶ Was bedeutet 'Kontext-Fenster' im Zusammenhang mit Tokens?

Das Kontext-Fenster bezeichnet die maximale Anzahl an Tokens, die ein LLM in einem einzigen Verarbeitungsschritt berücksichtigen kann – also Prompt und Antwort zusammen. Inhalte, die außerhalb dieses Fensters liegen, 'sieht' das Modell nicht. Die Größe des Kontext-Fensters variiert je nach Modell und ist eine der wichtigsten Kennzahlen beim Vergleich von LLMs für dokumentenintensive Aufgaben.

Stand: 15. März 2026