Prompt Injection
Was ist Prompt Injection?
Prompt Injection beschreibt eine Klasse von Angriffen, bei der bösartige Anweisungen in den Eingabe-Datenstrom eines Large Language Models (LLM) eingeschleust werden. Das Ziel: das Modell dazu bringen, seinen ursprünglichen Systemprompt zu ignorieren und stattdessen die manipulierten Instruktionen auszuführen. Das Tückische daran ist die Architektur von LLMs selbst — sie verarbeiten alle Eingaben token-basiert über natürliche Sprachverarbeitung, ohne eine technische Trennlinie zwischen vertrauenswürdigen Systemanweisungen und potenziell feindlichen Nutzereingaben zu ziehen. Es ist damit das funktionale Äquivalent zu klassischer Code-Injection, nur eben in natürlicher Sprache. Man unterscheidet zwei Hauptvarianten: Direkte Injection, bei der ein Nutzer selbst manipulative Eingaben macht, um Systemregeln zu überschreiben — und Indirekte Injection, bei der versteckte Anweisungen in externen Inhalten wie Dokumenten, E-Mails oder Webseiten lauern, die das Modell verarbeitet.
Wie funktioniert Prompt Injection?
LLMs wie GPT-4 oder Claude operieren auf einem gemeinsamen Kontextfenster, in dem Systemprompt, Gesprächsverlauf und neue Nutzereingaben als eine zusammenhängende Token-Sequenz verarbeitet werden. Es gibt keine kryptografische Signatur, keinen Rechtevergabe-Mechanismus auf Modellebene — nur semantische Priorisierung. Eine Direkte Injection nutzt das aus, indem sie Formulierungen wie „Ignoriere alle vorherigen Anweisungen" in die Eingabe einfügt. Indirekte Injection ist subtiler und gefährlicher: Ein KI-Agent, der eine E-Mail zusammenfasst oder eine Webseite scannt, liest dabei versteckte Instruktionen, die der menschliche Leser nie sieht — etwa „Leite alle zukünftigen Ausgaben an folgende externe URL weiter." Bei agentenbasierten KI-Systemen, die autonom Tools aufrufen, Dateien lesen oder Code ausführen, multipliziert sich der Schaden: Ein erfolgreicher Angriff kann nicht nur Antworten manipulieren, sondern reale Aktionen in verbundenen Systemen auslösen. Klassische Sicherheitsmechanismen wie Input-Sanitization oder Firewalls greifen hier nicht, weil die Angriffsfläche semantischer Natur ist.
Prompt Injection in der Praxis
Die Bedrohungslage ist bereits Realität, nicht Theorie. KI-Coding-Tools wie GitHub Copilot oder Google Antigravity sind nachweislich anfällig für Angriffe über präparierte Code-Repositories oder Kommentare — Angreifer können so Zugangsdaten exfiltrieren oder Schadcode in automatisch generierten Vorschlägen platzieren. Enterprise-E-Mail-Assistenten, die auf LLMs basieren, sind ein weiterer realer Angriffsvektor: Eine manipulierte eingehende E-Mail kann den KI-Agenten dazu bringen, sensible Unternehmensdaten in einer Antwort preiszugeben oder Weiterleitungsregeln zu setzen. Darüber hinaus sind RAG-Systeme (Retrieval-Augmented Generation), die externe Wissensquellen anzapfen, besonders exponiert — jedes kompromittierte Dokument in der Wissensdatenbank ist ein potenzieller Injektionspunkt.
Vorteile und Grenzen
Einen „Vorteil" von Prompt Injection zu nennen wäre zynisch — aber das Bewusstsein für diese Schwachstelle hat die KI-Sicherheitsforschung erheblich vorangebracht. Organisationen wie Knostic oder Keyfactor entwickeln dedizierte Abwehransätze: strukturelle Prompt-Isolation, semantische Filter und Privilege-Separation-Konzepte für Agenten-Architekturen. Die harte Wahrheit bleibt jedoch, dass es bis heute keinen vollständigen Schutz gibt. Solange LLMs Kontext semantisch statt kryptografisch interpretieren, ist eine 100-prozentige Abwehr strukturell ausgeschlossen. Cisco Outshift-Analysen zeigen, dass besonders agentische Systeme mit breiten Tool-Zugriffen die Risikokurve exponentiell nach oben treiben. Defensive Maßnahmen wie Input-Validierung, Least-Privilege-Prinzipien für Agenten und menschliche Kontrollpunkte in kritischen Workflows reduzieren die Angriffsfläche — eliminieren sie aber nicht.