Inpainting — PromptLoop Glossar

Was ist Inpainting?

Inpainting ist ein Verfahren der computergestützten Bildbearbeitung, bei dem ein Modell gezielt ausgewählte — also maskierte — Bereiche eines Bildes neu berechnet und mit plausiblem Inhalt füllt. Die Grundidee stammt aus der klassischen Kunstrestauration, wo Pigmente manuell aufgetragen wurden. Im KI-Kontext übernehmen das generative Modelle, allen voran Diffusionsmodelle. Verwandte Konzepte sind Outpainting (Erweiterung des Bildes über seine Ränder hinaus) und Generative Editing, das Inpainting mit textbasierten Anweisungen kombiniert. Der entscheidende Unterschied zur klassischen Retusche: Das Modell „erfindet" den fehlenden Inhalt nicht willkürlich, sondern leitet ihn statistisch aus dem umgebenden Bildkontext und — optional — einem Textprompt ab.

Wie funktioniert Inpainting?

Der technische Kern moderner Inpainting-Systeme sind Latent Diffusion Models (LDMs), wie sie Stable Diffusion seit 2022 popularisiert hat. Der Prozess läuft in mehreren Schritten ab: Zunächst wird das Eingabebild in einen komprimierten latenten Raum projiziert. Die zu füllende Region wird dabei durch eine binäre Maske markiert und mit Rauschen überschrieben. Ein trainiertes U-Net führt dann iteratives Denoising durch — es schätzt bei jedem Schritt, welche Pixel in der Maske am wahrscheinlichsten zum restlichen Bild passen. Cross-Attention-Mechanismen koppeln diesen Prozess an einen optionalen Textprompt, der die Richtung der Rekonstruktion steuert. Fine-Tuning via LoRA (Low-Rank Adaptation) erlaubt es, Inpainting-Modelle mit deutlich weniger Rechenaufwand auf spezifische Stile oder Domänen anzupassen. Effiziente Architekturen wie Z-Image-Turbo (6B Parameter von Zhipu AI) erreichen Sub-Sekunden-Latenz auf Consumer-GPUs mit 16 GB VRAM — ein klares Signal, dass Echtzeit-Inpainting kein Zukunftsszenario mehr ist.

Inpainting in der Praxis

Der breiteste Anwendungsfall ist das Generative Editing in der Content-Produktion: Fotografen entfernen unerwünschte Objekte, ersetzen Hintergründe oder ergänzen Bildkomposition — alles ohne manuelles Klonen. Tools wie ComfyUI (node-basierter Workflow) und A1111 WebUI machen das lokal und ohne Programmierkenntnisse zugänglich. Ein zweiter wichtiger Bereich ist Video-Inpainting: Googles Veo 2 via Vertex AI unterstützt Inpainting und Outpainting für Videos direkt aus Text- und Bildprompts — relevant für Post-Production und Werbung. Dritter Anwendungsbereich: Forensik und industrielle Signalverarbeitung. Hier kommen auch nicht-visuelle Varianten des Inpaintings zum Einsatz, etwa zur Rekonstruktion fehlender Messpunkte in Sensordaten mithilfe von Gaussian Processes.

Vorteile und Grenzen

Der offensichtliche Vorteil: Inpainting spart massiv Zeit und senkt die Einstiegshürde für hochwertige Bildbearbeitung. Was früher stundenlange Retuschearbeit war, dauert heute Sekunden. Zudem ermöglichen Textprompts eine semantisch präzise Steuerung — du beschreibst, was in die Lücke soll, nicht wie du es pinselst. Die Kehrseite ist ebenso real: Inpainting-Modelle produzieren Artefakte, sobald die Maske zu groß oder der Kontext zu komplex wird. Konsistenz über mehrere Edits hinweg ist eine offene Baustelle — auch wenn Systeme wie Gemini 3 Pro mit bis zu 14 Referenzeingaben Fortschritte zeigen. Gravierender ist das Missbrauchspotenzial: Inpainting ist ein Kerntool für die Erstellung von Deepfakes und manipulierten Bilddokumenten. Gegenmaßnahmen wie Zero-Watermarking (etwa durch patch-basierte Ansätze wie Rel-Zero) sind aktives Forschungsfeld, aber noch kein Standard. Wer Inpainting produktiv einsetzt, trägt Verantwortung für den Umgang mit den Outputs.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen Inpainting und Outpainting?

Inpainting füllt maskierte Bereiche innerhalb eines bestehenden Bildes. Outpainting erweitert das Bild über seine ursprünglichen Ränder hinaus und generiert neuen Inhalt außerhalb des Originalrahmens. Beide Verfahren nutzen dieselben generativen Modelle, unterscheiden sich aber in der Richtung der Rekonstruktion.

▶ Welche Hardware brauche ich für lokales Inpainting?

Für gängige Open-Source-Modelle wie Stable Diffusion reichen Consumer-GPUs mit mindestens 8 GB VRAM. Effizientere Architekturen wie Z-Image-Turbo schaffen Sub-Sekunden-Inferenz auf GPUs mit 16 GB VRAM. Tools wie ComfyUI oder A1111 WebUI laufen lokal ohne Programmierkenntnisse.

▶ Wie zuverlässig ist KI-Inpainting bei großen Maskenbereichen?

Bei kleinen bis mittelgroßen Masken liefern aktuelle Diffusionsmodelle oft überzeugende Ergebnisse. Je größer und semantisch komplexer der zu füllende Bereich, desto wahrscheinlicher sind Artefakte oder Inkonsistenzen. Textprompts helfen, die Richtung der Generierung zu steuern, garantieren aber keine Fehlerfreiheit.

Stand: 28. März 2026