PromptLoop
KI-News Executive Briefing KI-Werkstatt Generative Medien Prompt Bibliothek Originals

Tokenizer

Was ist ein Tokenizer?

Ein Tokenizer ist ein Algorithmus, der Rohtext in kleinere Einheiten — sogenannte Token — zerlegt und diese in numerische IDs eines Vokabulars übersetzt. Dieses Vokabular enthält alle eindeutigen Token, die ein Modell kennt, typischerweise viele Tausende bis Zehntausende Einträge. Die Tokenisierung ist der erste Schritt sowohl im Training als auch in der Inferenz eines Large Language Model (LLM): Ohne sie kein Prompt, ohne sie keine Antwort. Der Prozess schafft die Grundlage dafür, dass ein Modell durch Embeddings semantische Beziehungen zwischen Token erkennen und das jeweils nächste Token vorhersagen kann — das Kernprinzip moderner Transformer-Architekturen.

Wie funktioniert ein Tokenizer?

Die drei gängigen Ansätze unterscheiden sich grundlegend in ihrer Granularität. Wort-Tokenisierung behandelt jeden Whitespace-getrennten Begriff als eigenes Token — simpel, aber unflexibel gegenüber unbekannten Wörtern. Zeichen-Tokenisierung zerlegt Text bis auf einzelne Buchstaben, was das Vokabular klein hält, aber Sequenzen extrem verlängert. Den heute dominanten Mittelweg bietet die Subwort-Tokenisierung: Methoden wie Byte-Pair-Encoding (BPE) — eingesetzt etwa in OpenAIs tiktoken-Bibliothek — oder SentencePiece von Hugging Face analysieren Trainingsdaten statistisch und brechen seltene Wörter in häufige Teilstücke auf. Das Wort „Tokenisierung" könnte so zu „Token", „is", „ierung" werden. Ein mittellanger Satz erzeugt dabei typischerweise 7 bis 10 Token; längere Texte können schnell auf 90+ Token-Einheiten anwachsen. Nach der Zerlegung werden Token-IDs in hochdimensionale Embedding-Vektoren umgewandelt, die das Modell dann durch seine Schichten propagiert.

Tokenizer in der Praxis

Im Prompt Engineering sind Tokenizer direkt kostenrelevant: Da LLM-APIs meist per Token abrechnen, entscheidet die Tokenisierungseffizienz über den Preis eines Produkts. Caching von System-Prompt-Token-Vektoren — eine heute verbreitete Optimierung — spart redundante Berechnungen bei wiederholten Anfragen erheblich. In der semantischen Suche und beim Aufbau von Vektorspeichern bilden Token-Embeddings die Basis für Dokumentenretrieval in RAG-Systemen (Retrieval-Augmented Generation). Und in multimodalen Modellen wie Text-zu-Bild-Generatoren werden Nutzer-Prompts tokenisiert, bevor sie als Konditionierungssignal in den Bildgenerierungsprozess einfließen.

Vorteile und Grenzen

Subwort-Tokenizer vereinen das Beste aus zwei Welten: kleines Vokabular, hohe Flexibilität bei unbekannten Wörtern und solide Abdeckung mehrsprachiger Texte. Für englischsprachige Inhalte funktioniert BPE nahezu reibungslos. Die Grenzen werden jedoch sichtbar, sobald man vom Englischen abweicht: Sprachen mit reicher Morphologie wie Deutsch oder Finnisch, aber auch Code mit ungewöhnlicher Syntax, werden oft weniger effizient tokenisiert — mehr Token pro semantischer Einheit bedeuten höhere Kosten und kürzere effektive Kontextfenster. Darüber hinaus sind Tokenizer modellspezifisch: Der Tokenizer von GPT-Modellen ist nicht austauschbar mit dem eines Open-Source-Modells auf Hugging Face. Wer Modelle wechselt, muss die Tokenisierungslogik neu evaluieren.

❓ Häufig gestellte Fragen

Was ist der Unterschied zwischen einem Token und einem Wort?
Ein Token ist nicht zwingend ein vollständiges Wort. Bei der Subwort-Tokenisierung können Wörter in mehrere Teilstücke zerlegt werden — besonders bei seltenen oder zusammengesetzten Begriffen. Ein einzelnes Wort kann also aus einem oder mehreren Token bestehen, während kurze, häufige Wörter oft genau einem Token entsprechen.
Warum beeinflusst der Tokenizer die Kosten beim Einsatz von LLM-APIs?
Die meisten LLM-APIs wie die von OpenAI rechnen pro verbrauchtem Token ab — sowohl für den Input (Prompt) als auch den Output (Antwort). Ein ineffizienter Tokenizer erzeugt mehr Token aus demselben Text, was direkt höhere API-Kosten und ein schneller ausgeschöpftes Kontextfenster bedeutet.
Ist der Tokenizer eines Modells frei wählbar oder austauschbar?
Nein. Tokenizer sind fest an das jeweilige Modell gebunden, da das Vokabular und die Token-IDs direkt ins Training eingeflossen sind. Ein Modell, das mit tiktoken von OpenAI trainiert wurde, kann nicht einfach mit dem SentencePiece-Tokenizer von Hugging Face betrieben werden, ohne das gesamte Modell neu zu trainieren.
📬 KI-News direkt ins Postfach