Context Window — PromptLoop Glossar

Was ist ein Context Window?

Ein Context Window – auf Deutsch Kontextfenster – definiert die maximale Menge an Informationen, die ein Large Language Model (LLM) in einer einzigen Anfrage gleichzeitig verarbeiten kann. Die Einheit dieser Kapazität sind Tokens: Subwort-Einheiten, die grob zwischen Silben und ganzen Wörtern liegen. Im Kontextfenster befinden sich nicht nur dein Prompt, sondern auch Systemanweisungen, der gesamte Chatverlauf, eingespeiste Dokumente und die bereits generierte Antwort. Überschreitest du die Kapazität, fällt älterer Inhalt aus dem Fenster – das Modell hat schlicht keinen Zugriff mehr darauf. Dieses Prinzip macht LLMs von Haus aus „stateless": Ohne aktives Gedächtnismanagement vergisst das Modell alles, was außerhalb des Fensters liegt. Eng verwandt ist das Konzept mit Prompt Engineering und dem neueren Ansatz des Context Engineering, das den gesamten Informationsfluss ins Modell systematisch optimiert.

Wie funktioniert ein Context Window?

Die technische Grundlage liefert die Transformer-Architektur, deren Attention-Mechanismus jedes Token im Fenster mit jedem anderen in Beziehung setzt. Das ist rechenintensiv: Die Komplexität wächst quadratisch mit der Fenstergröße, weshalb größere Fenster erhebliche GPU-Ressourcen beanspruchen. Moderne Ansätze wie Sparse Attention oder Ring Attention adressieren diesen Bottleneck, um Millionen-Token-Fenster überhaupt handhabbar zu machen. Innerhalb des Fensters konkurrieren vier zentrale Informationsquellen um den verfügbaren Platz: der System Prompt mit Instruktionen und Persona-Definitionen, das Short-term Memory aus dem laufenden Gesprächsverlauf, über Retrieval-Augmented Generation (RAG) dynamisch abgerufene Wissensinhalte sowie Tool Definitions, die dem Modell externe Funktionen beschreiben. Context Engineering als Disziplin orchestriert genau dieses Zusammenspiel – durch Pruning irrelevanter Passagen, semantische Kompression und Relevanzgewichtung. Standards wie das Model Context Protocol (MCP) schaffen dabei eine einheitliche Schnittstelle, über die KI-Agenten strukturiert auf externe Daten und Tools zugreifen.

Context Window in der Praxis

Im Softwareentwicklungs-Workflow ermöglichen große Kontextfenster, eine gesamte Codebasis auf einmal einzuspeisen. Statt einzelne Funktionen isoliert zu debuggen, kann ein Agent Abhängigkeiten über Dutzende Dateien hinweg analysieren und konsistente Refactorings vorschlagen – ohne den Faden zu verlieren. In der Unternehmens-Dokumentenanalyse lassen sich komplette Vertragswerke, Jahresberichte oder regulatorische Dokumente in einem einzigen Durchlauf auswerten. Ein Compliance-Tool kann so auf Basis des vollständigen Gesetzestexts und des internen Regelwerks gleichzeitig Widersprüche identifizieren. Für KI-Agenten in autonomen Workflows – etwa in RPA oder Planungssystemen – ist das Kontextfenster das operative Kurzzeitgedächtnis: Es hält Aufgabenstatus, Zwischenergebnisse und Tool-Outputs vor, sodass mehrstufige Prozesse ohne externe Datenbank-Umwege ablaufen können.

Vorteile und Grenzen

Der offensichtliche Vorteil: Je größer das Fenster, desto weniger Kompromisse beim Informationsinput. Komplexe, langläufige Aufgaben werden ohne Chunking-Hacks handhabbar, die Qualität von Zusammenhängen und Referenzen steigt. Gleichzeitig löst ein großes Fenster allein kein Problem – es verlagert es. Modelle neigen dazu, Informationen in der Mitte langer Kontexte schlechter zu gewichten als am Anfang oder Ende, ein Phänomen, das als Lost in the Middle bekannt ist. Hinzu kommen Kosten: Mehr Tokens bedeuten höhere Inferenzkosten und längere Latenz. Und das fundamentale Stateless-Problem bleibt: Jede neue Session startet bei null, was persistente Wissensspeicher und durchdachtes Context Engineering weiterhin unverzichtbar macht.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen Context Window und Speicher eines KI-Modells?

Das Context Window ist temporäres Kurzzeitgedächtnis: Es existiert nur für die Dauer einer Anfrage und wird danach verworfen. Echter persistenter Speicher – etwa über Datenbanken oder RAG-Systeme – muss extern organisiert werden und beim nächsten Start neu ins Fenster geladen werden.

▶ Wie viele Tokens entsprechen einer normalen Textseite?

Grob gilt: Eine DIN-A4-Seite mit etwa 500 Wörtern entspricht rund 600–750 Tokens. Ein Kontextfenster von 1 Million Tokens fasst also ungefähr 1.300 bis 1.600 solcher Seiten – oder einen mittelgroßen Roman.

▶ Was passiert, wenn das Context Window überschritten wird?

Überschreitest du die maximale Token-Kapazität, schneidet das Modell ältere Inhalte ab – in der Regel vom Anfang des Gesprächs. Das bedeutet: Frühere Instruktionen, Antworten oder Nutzereingaben verschwinden aus dem Verarbeitungsrahmen, was zu inkonsistenten oder widersprüchlichen Antworten führen kann.

Stand: 20. März 2026