Tokenizer
Was ist ein Tokenizer?
Ein Tokenizer ist ein Algorithmus, der Rohtext in kleinere Einheiten — sogenannte Token — zerlegt und diese in numerische IDs eines Vokabulars übersetzt. Dieses Vokabular enthält alle eindeutigen Token, die ein Modell kennt, typischerweise viele Tausende bis Zehntausende Einträge. Die Tokenisierung ist der erste Schritt sowohl im Training als auch in der Inferenz eines Large Language Model (LLM): Ohne sie kein Prompt, ohne sie keine Antwort. Der Prozess schafft die Grundlage dafür, dass ein Modell durch Embeddings semantische Beziehungen zwischen Token erkennen und das jeweils nächste Token vorhersagen kann — das Kernprinzip moderner Transformer-Architekturen.
Wie funktioniert ein Tokenizer?
Die drei gängigen Ansätze unterscheiden sich grundlegend in ihrer Granularität. Wort-Tokenisierung behandelt jeden Whitespace-getrennten Begriff als eigenes Token — simpel, aber unflexibel gegenüber unbekannten Wörtern. Zeichen-Tokenisierung zerlegt Text bis auf einzelne Buchstaben, was das Vokabular klein hält, aber Sequenzen extrem verlängert. Den heute dominanten Mittelweg bietet die Subwort-Tokenisierung: Methoden wie Byte-Pair-Encoding (BPE) — eingesetzt etwa in OpenAIs tiktoken-Bibliothek — oder SentencePiece von Hugging Face analysieren Trainingsdaten statistisch und brechen seltene Wörter in häufige Teilstücke auf. Das Wort „Tokenisierung" könnte so zu „Token", „is", „ierung" werden. Ein mittellanger Satz erzeugt dabei typischerweise 7 bis 10 Token; längere Texte können schnell auf 90+ Token-Einheiten anwachsen. Nach der Zerlegung werden Token-IDs in hochdimensionale Embedding-Vektoren umgewandelt, die das Modell dann durch seine Schichten propagiert.
Tokenizer in der Praxis
Im Prompt Engineering sind Tokenizer direkt kostenrelevant: Da LLM-APIs meist per Token abrechnen, entscheidet die Tokenisierungseffizienz über den Preis eines Produkts. Caching von System-Prompt-Token-Vektoren — eine heute verbreitete Optimierung — spart redundante Berechnungen bei wiederholten Anfragen erheblich. In der semantischen Suche und beim Aufbau von Vektorspeichern bilden Token-Embeddings die Basis für Dokumentenretrieval in RAG-Systemen (Retrieval-Augmented Generation). Und in multimodalen Modellen wie Text-zu-Bild-Generatoren werden Nutzer-Prompts tokenisiert, bevor sie als Konditionierungssignal in den Bildgenerierungsprozess einfließen.
Vorteile und Grenzen
Subwort-Tokenizer vereinen das Beste aus zwei Welten: kleines Vokabular, hohe Flexibilität bei unbekannten Wörtern und solide Abdeckung mehrsprachiger Texte. Für englischsprachige Inhalte funktioniert BPE nahezu reibungslos. Die Grenzen werden jedoch sichtbar, sobald man vom Englischen abweicht: Sprachen mit reicher Morphologie wie Deutsch oder Finnisch, aber auch Code mit ungewöhnlicher Syntax, werden oft weniger effizient tokenisiert — mehr Token pro semantischer Einheit bedeuten höhere Kosten und kürzere effektive Kontextfenster. Darüber hinaus sind Tokenizer modellspezifisch: Der Tokenizer von GPT-Modellen ist nicht austauschbar mit dem eines Open-Source-Modells auf Hugging Face. Wer Modelle wechselt, muss die Tokenisierungslogik neu evaluieren.