Prompt Caching
Was ist Prompt Caching?
Prompt Caching ist eine Inferenz-Optimierungstechnik für Large Language Models (LLMs), die gezielt an der teuersten Stelle des Serving-Prozesses ansetzt: der sogenannten Prefill-Phase. In dieser Phase verarbeitet das Modell alle Eingabe-Token und berechnet daraus die internen Key-Value-Tensoren (KV-Cache) — ein rechenintensiver Schritt, der bei jeder neuen Anfrage vollständig wiederholt wird, selbst wenn große Teile des Prompts identisch sind. Prompt Caching unterbricht diesen Kreislauf, indem es bereits berechnete KV-Cache-Zustände für statische Prompt-Präfixe persistiert und bei Folge-Anfragen direkt wiederverwendet. Das Konzept ist klar abzugrenzen von Semantic Caching, das auf Ähnlichkeit von Outputs setzt, sowie von Hardware-nahem CPU/GPU-Caching — Prompt Caching operiert auf der Ebene der Modell-Inferenzlogik.
Wie funktioniert Prompt Caching?
Die Technik existiert in zwei Ausprägungen. Beim Passiven Prefix-Caching erkennt das Serving-System opportunistisch gemeinsame Prompt-Präfixe über mehrere Anfragen hinweg und legt deren KV-Zustände im GPU-Speicher ab — ohne dass der Entwickler explizit eingreifen muss. Das funktioniert gut bei hoher Anfrage-Dichte mit überlappenden Präfixen, ist aber von der jeweiligen Auslastung abhängig. Beim Proaktiven Caching hingegen werden statische Prompt-Strukturen vorab identifiziert und der KV-Cache präventiv vorberechnet. Systeme wie Helium gehen noch weiter: Sie modellieren Agentic Workflows als Query-Pläne, erkennen deterministisch wiederkehrende Operatoren und überspringen deren Ausführung vollständig durch einen globalen proaktiven Prompt-Cache. Auf API-Ebene bietet Anthropic mit dem cache_control-Parameter eine explizite Steuerung, welche Prompt-Segmente gecacht werden sollen — das gibt Entwicklern präzise Kontrolle über Hit-Raten und Kosten. Im Kubernetes-Umfeld adressiert llm-d (seit Mai 2025 in der CNCF) das Problem auf Infrastrukturebene: Sein Endpoint Picker (EPP) routet Anfragen inferenz-bewusst dorthin, wo der passende KV-Cache bereits vorliegt — und maximiert so die Cache-Hit-Rate über verteilte Serving-Instanzen hinweg.
Prompt Caching in der Praxis
Der klassischste Use Case sind Anwendungen mit langem, stabilem Systemprompt: Wer einem LLM bei jeder Anfrage denselben 10.000-Token-Kontext voranstellt — etwa ein umfangreiches Regelwerk, eine Wissensbasis oder ein langer Gesprächsverlauf — zahlt ohne Caching jedes Mal die volle Prefill-Rechnung. Mit Caching fällt dieser Anteil nach dem ersten Aufruf weg. Ein zweiter, besonders relevanter Anwendungsfall sind Batch-Agenten in agentic Workflows: Ein Trading-Agent, der täglich ähnliche Firmenberichte zusammenfasst, oder ein Monitoring-Agent, der wiederholt gegen denselben Prompt-Rahmen ausgeführt wird, profitiert massiv von proaktiv vorberechneten Präfixen. Das GitHub Copilot SDK demonstriert diesen Ansatz konkret: Es nutzt Prompt Caching zur automatisierten Issue-Triage, bei der KI-gestützte Zusammenfassungen über gleichartige Anfrage-Strukturen hinweg effizient generiert werden.
Vorteile und Grenzen
Der Hauptvorteil ist handfest: Kosteneinsparungen von 70–80 % bei kombinierten Strategien gelten als realistisch erreichbar, in optimalen Szenarien sind bis zu 90 % möglich. Dazu kommt eine spürbar reduzierte Latenz, da die Prefill-Phase für gecachte Segmente entfällt. Der Implementierungsaufwand ist im Verhältnis gering — weshalb Prompt Caching als erster Schritt vor Model Routing oder Semantic Caching empfohlen wird. Die Grenzen sind allerdings ebenso klar: Caching entfaltet seinen Wert nur bei hoher Anfrage-Dichte mit überlappenden Präfixen. Stark dynamische Prompts, bei denen sich der Inhalt von Anfrage zu Anfrage grundlegend ändert, profitieren kaum. Hinzu kommen Infrastrukturkosten für den GPU-Speicher, der für persistente KV-Caches reserviert werden muss — ein Trade-off, der bei niedrigen Anfragevolumen nicht aufgeht. Und schließlich ist die Implementierungsqualität entscheidend: Nur wer Prompt-Strukturen konsequent so aufbaut, dass statische Segmente am Anfang stehen, schöpft das Potenzial wirklich aus.