Prompt Caching — PromptLoop Glossar

Was ist Prompt Caching?

Prompt Caching ist eine Inferenz-Optimierungstechnik für Large Language Models (LLMs), die gezielt an der teuersten Stelle des Serving-Prozesses ansetzt: der sogenannten Prefill-Phase. In dieser Phase verarbeitet das Modell alle Eingabe-Token und berechnet daraus die internen Key-Value-Tensoren (KV-Cache) — ein rechenintensiver Schritt, der bei jeder neuen Anfrage vollständig wiederholt wird, selbst wenn große Teile des Prompts identisch sind. Prompt Caching unterbricht diesen Kreislauf, indem es bereits berechnete KV-Cache-Zustände für statische Prompt-Präfixe persistiert und bei Folge-Anfragen direkt wiederverwendet. Das Konzept ist klar abzugrenzen von Semantic Caching, das auf Ähnlichkeit von Outputs setzt, sowie von Hardware-nahem CPU/GPU-Caching — Prompt Caching operiert auf der Ebene der Modell-Inferenzlogik.

Wie funktioniert Prompt Caching?

Die Technik existiert in zwei Ausprägungen. Beim Passiven Prefix-Caching erkennt das Serving-System opportunistisch gemeinsame Prompt-Präfixe über mehrere Anfragen hinweg und legt deren KV-Zustände im GPU-Speicher ab — ohne dass der Entwickler explizit eingreifen muss. Das funktioniert gut bei hoher Anfrage-Dichte mit überlappenden Präfixen, ist aber von der jeweiligen Auslastung abhängig. Beim Proaktiven Caching hingegen werden statische Prompt-Strukturen vorab identifiziert und der KV-Cache präventiv vorberechnet. Systeme wie Helium gehen noch weiter: Sie modellieren Agentic Workflows als Query-Pläne, erkennen deterministisch wiederkehrende Operatoren und überspringen deren Ausführung vollständig durch einen globalen proaktiven Prompt-Cache. Auf API-Ebene bietet Anthropic mit dem cache_control-Parameter eine explizite Steuerung, welche Prompt-Segmente gecacht werden sollen — das gibt Entwicklern präzise Kontrolle über Hit-Raten und Kosten. Im Kubernetes-Umfeld adressiert llm-d (seit Mai 2025 in der CNCF) das Problem auf Infrastrukturebene: Sein Endpoint Picker (EPP) routet Anfragen inferenz-bewusst dorthin, wo der passende KV-Cache bereits vorliegt — und maximiert so die Cache-Hit-Rate über verteilte Serving-Instanzen hinweg.

Prompt Caching in der Praxis

Der klassischste Use Case sind Anwendungen mit langem, stabilem Systemprompt: Wer einem LLM bei jeder Anfrage denselben 10.000-Token-Kontext voranstellt — etwa ein umfangreiches Regelwerk, eine Wissensbasis oder ein langer Gesprächsverlauf — zahlt ohne Caching jedes Mal die volle Prefill-Rechnung. Mit Caching fällt dieser Anteil nach dem ersten Aufruf weg. Ein zweiter, besonders relevanter Anwendungsfall sind Batch-Agenten in agentic Workflows: Ein Trading-Agent, der täglich ähnliche Firmenberichte zusammenfasst, oder ein Monitoring-Agent, der wiederholt gegen denselben Prompt-Rahmen ausgeführt wird, profitiert massiv von proaktiv vorberechneten Präfixen. Das GitHub Copilot SDK demonstriert diesen Ansatz konkret: Es nutzt Prompt Caching zur automatisierten Issue-Triage, bei der KI-gestützte Zusammenfassungen über gleichartige Anfrage-Strukturen hinweg effizient generiert werden.

Vorteile und Grenzen

Der Hauptvorteil ist handfest: Kosteneinsparungen von 70–80 % bei kombinierten Strategien gelten als realistisch erreichbar, in optimalen Szenarien sind bis zu 90 % möglich. Dazu kommt eine spürbar reduzierte Latenz, da die Prefill-Phase für gecachte Segmente entfällt. Der Implementierungsaufwand ist im Verhältnis gering — weshalb Prompt Caching als erster Schritt vor Model Routing oder Semantic Caching empfohlen wird. Die Grenzen sind allerdings ebenso klar: Caching entfaltet seinen Wert nur bei hoher Anfrage-Dichte mit überlappenden Präfixen. Stark dynamische Prompts, bei denen sich der Inhalt von Anfrage zu Anfrage grundlegend ändert, profitieren kaum. Hinzu kommen Infrastrukturkosten für den GPU-Speicher, der für persistente KV-Caches reserviert werden muss — ein Trade-off, der bei niedrigen Anfragevolumen nicht aufgeht. Und schließlich ist die Implementierungsqualität entscheidend: Nur wer Prompt-Strukturen konsequent so aufbaut, dass statische Segmente am Anfang stehen, schöpft das Potenzial wirklich aus.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen Prompt Caching und Semantic Caching?

Prompt Caching speichert berechnete KV-Cache-Zustände für identische oder stark überlappende Prompt-Präfixe und greift direkt in die Prefill-Phase der LLM-Inferenz ein. Semantic Caching hingegen arbeitet auf Output-Ebene: Es prüft, ob eine neue Anfrage semantisch ähnlich genug zu einer früheren ist, um deren Antwort direkt wiederzuverwenden — ohne das Modell überhaupt zu befragen. Beide Techniken ergänzen sich, lösen aber unterschiedliche Probleme.

▶ Für welche Anwendungsfälle lohnt sich Prompt Caching am meisten?

Am stärksten profitieren Anwendungen mit langen, stabilen Systemprompts oder Kontext-Präfixen, die bei vielen Anfragen identisch bleiben — etwa Chatbots mit umfangreichem Regelwerk, Dokumentenanalyse-Tools oder Batch-Agenten in agentic Workflows. Je höher die Anfrage-Dichte und je stabiler der wiederverwendete Prompt-Anteil, desto größer die Einsparung.

▶ Wie aktiviere ich Prompt Caching in der Praxis?

Das hängt vom verwendeten Anbieter und Framework ab. Anthropic bietet über den cache_control-Parameter eine explizite API-seitige Steuerung. Serving-Systeme wie vLLM implementieren passives Prefix-Caching oft automatisch bei entsprechender Konfiguration. Auf Infrastrukturebene optimiert llm-d über seinen Endpoint Picker das Routing zu Instanzen mit bestehendem KV-Cache. Grundregel: Statische Prompt-Segmente immer an den Anfang des Prompts stellen, damit das System sie zuverlässig als cachebares Präfix erkennt.

Stand: 28. März 2026