Retrieval-Augmented Generation (RAG)

Was ist Retrieval-Augmented Generation (RAG)?

RAG ist eine Systemarchitektur, die ein Large Language Model (LLM) mit einer externen Wissensquelle koppelt. Das Konzept löst ein strukturelles Problem jedes LLM: Der Knowledge Cutoff — also das Datum, nach dem kein neues Wissen ins Modell eingeflossen ist — macht pure Sprachmodelle für dynamische, aktuelle oder proprietäre Wissensdomänen unzuverlässig. Statt das Modell mit teuren Retraining-Zyklen aufzufrischen, holt RAG die benötigten Informationen zur Laufzeit aus Vektordatenbanken, Dokumentenkorpora oder dem Web — und reicht sie dem LLM als Kontext. Das Ergebnis: faktenbasierte Outputs, reduzierte Halluzinationen und kontrollierbares Quellenwissen.

Wie funktioniert Retrieval-Augmented Generation (RAG)?

Der Prozess läuft in vier aufeinanderfolgenden Stufen ab. Erstens: Datenindexierung — Dokumente werden in semantische Chunks zerlegt, per Embedding-Modell in hochdimensionale Vektoren überführt und in einem Vektorstore (z. B. Pinecone, pgvector oder Weaviate) indexiert. Zweitens: Retrieval — bei einer eingehenden Nutzeranfrage wird diese ebenfalls vektorisiert und per Approximate Nearest Neighbor Search gegen den Index abgeglichen; die top-k semantisch relevantesten Textpassagen werden extrahiert. Drittens: Augmentierung — die abgerufenen Chunks werden zusammen mit der ursprünglichen Query in einen strukturierten Prompt eingebettet, der dem LLM als erweiterter Kontext dient. Viertens: Generierung — das LLM produziert seine Antwort ausschließlich auf Basis dieses angereicherten Prompts. Eine wichtige Weiterentwicklung ist Agentic RAG: Hierbei plant ein Agent (typischerweise auf Basis des ReAct-Frameworks) mehrstufige Reasoning-Flows, triggert mehrere Retrieval-Zyklen, validiert Zwischenergebnisse und orchestriert externe APIs — weit über den klassischen einmaligen Retrieve-then-Generate-Loop hinaus.

Retrieval-Augmented Generation (RAG) in der Praxis

Enterprise-Wissenssysteme: Unternehmen wie Okta setzen Agentic RAG ein, um interne Dokumentationen, HR-Richtlinien und technische Manuals über einen einheitlichen Chat-Interface zugänglich zu machen — ohne sensible Daten ins LLM-Training zu überführen. Kundensupport: Supportbots, die auf aktuelle Produktdokumentationen und Tickethistorien zugreifen, reduzieren Eskalationsraten messbar, weil sie präzisere Antworten liefern als ein generisch trainiertes Modell. Legal und Compliance: Kanzleien nutzen RAG, um Vertragsklauseln gegen aktuelle Rechtsprechungsdatenbanken abzugleichen — ein Szenario, bei dem ein veralteter Knowledge Cutoff direkt haftungsrelevant werden kann.

Vorteile und Grenzen

Die Stärken von RAG liegen auf der Hand: kein Retraining bei sich ändernden Wissensdaten, nachvollziehbare Quellenangaben, niedrigere Betriebskosten im Vergleich zu feingetunten Modellen und eine deutlich geringere Halluzinationsrate bei faktenschweren Aufgaben. Doch RAG ist kein Allheilmittel. Die Qualität des Outputs hängt direkt an der Qualität des Retrieval-Schritts — ein schlecht indexierter Corpus oder ein schwaches Embedding-Modell liefert irrelevante Chunks, die das LLM dann trotzdem zu einer Antwort verarbeitet: Garbage in, garbage out gilt hier uneingeschränkt. Hinzu kommt Latenz: Jeder Retrieval-Zyklus kostet Zeit, Agentic-RAG-Workflows mit mehreren Iterationen können spürbar langsamer sein als direkte LLM-Calls. Datenschutz ist ein weiterer Knackpunkt — sobald Retrieval über externe APIs läuft, müssen Privacy-Anforderungen (etwa DSGVO-konformes Datenhandling) explizit in die Architektur eingebaut werden, was aktuelle Forschungsansätze wie Privacy-Preserving RAG mit verschlüsselten Top-k-Abfragen adressieren.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen RAG und Fine-Tuning?

Fine-Tuning verändert die Gewichte eines Modells durch weiteres Training auf domänenspezifischen Daten — das ist teuer, zeitaufwendig und muss bei jeder Wissensänderung wiederholt werden. RAG lässt das Modell unverändert und liefert stattdessen zur Laufzeit frische Informationen als Kontext. Für sich häufig ändernde oder vertrauliche Wissensdaten ist RAG in der Regel die effizientere Wahl.

▶ Wie reduziert RAG Halluzinationen bei LLMs?

Ein LLM halluziniert oft, weil es eine Antwort aus statistischen Mustern im Training ableitet, statt auf verifizierte Fakten zurückzugreifen. RAG zwingt das Modell, seine Antwort auf konkret abgerufene, nachprüfbare Textpassagen zu stützen. Da die Quellen im Prompt explizit vorliegen, ist die Versuchung zur freien Erfindung strukturell deutlich geringer — vollständig eliminiert werden Halluzinationen dadurch allerdings nicht.

▶ Was ist Agentic RAG und wann brauche ich es?

Klassisches RAG führt genau einen Retrieval-Schritt aus und generiert danach eine Antwort. Agentic RAG erweitert das um autonomes Planen und mehrere iterative Retrieval-Zyklen: Ein Agent bewertet Zwischenergebnisse, entscheidet ob weitere Abfragen nötig sind, und kann externe Tools oder APIs einbinden. Sinnvoll ist Agentic RAG bei komplexen, mehrstufigen Fragen — etwa bei der Analyse juristischer Dokumente oder bei der Zusammenführung von Daten aus mehreren Quellen.

Stand: 15. März 2026