Stable Diffusion — PromptLoop Glossar

Was ist Stable Diffusion?

Stable Diffusion ist ein Diffusionsmodell für generative Bildproduktion, entwickelt und veröffentlicht von Stability AI. Der entscheidende Unterschied zu anderen Text-to-Image-Systemen: Das Modell operiert nicht im hochdimensionalen Pixel-Raum, sondern in einem komprimierten latenten Raum (Latent Space). Ein vorgelagerter Variational Autoencoder (VAE) komprimiert Bilder in diesen Raum, der eigentliche Diffusionsprozess findet dort statt – was den Rechenaufwand gegenüber frühen Diffusionsmodellen drastisch reduziert. Ergänzt wird das Ganze durch einen CLIP-Textencoder, der Prompts in semantische Vektoren übersetzt, und einen U-Net-Denoiser, der das Rauschen gezielt abbaut. Das Ergebnis: Ein Modell, das auf Consumer-GPUs läuft.

Wie funktioniert Stable Diffusion?

Der Prozess folgt zwei Phasen. Im Forward Diffusion Process wird einem realen Bild schrittweise Gausssches Rauschen hinzugefügt, bis nur noch pures Noise übrig bleibt – das ist der Trainingsprozess. Im Reverse Diffusion Process lernt das Netz, diesen Weg rückwärts zu gehen: Es startet mit zufälligem Rauschen und entfernt es über eine konfigurierbare Anzahl an Steps iterativ, gelenkt durch den Text-Prompt. Die Stärke des Prompt-Einflusses kontrolliert die Guidance Scale (CFG-Wert). Reproduzierbarkeit liefert der Seed-Parameter. Für Finetuning auf spezifische Stile oder Charaktere hat sich LoRA (Low-Rank Adaptation) etabliert: Mit weniger als zehn Referenzbildern lässt sich ein Adapter trainieren, der das Basismodell in eine gewünschte Richtung lenkt – ohne es vollständig neu zu trainieren. Aktuelle Varianten wie Stable Diffusion 3.5 (verfügbar als Medium, Large und Turbo) erweitern die Architektur auf verbesserte Typografie, höhere Konsistenz und bessere Prompt-Adherence.

Stable Diffusion in der Praxis

Der bekannteste Einstiegspunkt für Nicht-Entwickler ist AUTOMATIC1111 (A1111), eine Gradio-basierte Web-UI, die den vollen Funktionsumfang – Inpainting, Outpainting, Image-to-Image, LoRA-Management – über ein Browser-Interface zugänglich macht. Produktionsteams bei Studios und Agenturen nutzen Stable Diffusion für Concept Art und Storyboarding, wo schnelle Iteration gefragt ist und proprietäre Tools wie Adobe Firefly oder Midjourney zu wenig Kontrolle über Stil-Konsistenz bieten. Ein dritter, wachsender Use Case ist die automatisierte Asset-Produktion: E-Commerce-Unternehmen generieren Produktbilder in verschiedenen Kontexten per API-Batch-Run – lokal, kosteneffizient, ohne Lizenzkosten pro Bild.

Vorteile und Grenzen

Der offensichtlichste Vorteil ist die vollständige Datenhoheit: Wer Stable Diffusion lokal betreibt, sendet keine Prompts an externe Server – ein entscheidendes Argument für Unternehmen mit Compliance-Anforderungen. Die Open-Source-Natur bedeutet außerdem ein riesiges Ökosystem an Modellen, Extensions und Community-Modellen (Checkpoints). Auf der anderen Seite steht eine steile Lernkurve: Parameter-Tuning, Modellauswahl und Hardware-Anforderungen überfordern Einsteiger regelmäßig. Proprietary-Modelle wie Flux.2 von Black Forest Labs liefern in Benchmarks teils schärfere Ergebnisse bei weniger Konfigurationsaufwand. Rechtlich bleibt die Lage ungeklärt: Klagen gegen Stability AI wegen der Nutzung urheberrechtlich geschützter Trainingsdaten sind noch nicht abschließend entschieden – und die Fähigkeit des Modells, rund 0,03 % der Trainingsbilder nahezu identisch zu reproduzieren, liefert Klägern ein konkretes Argument.

❓ Häufig gestellte Fragen

▶ Was unterscheidet Stable Diffusion von Midjourney?

Stable Diffusion ist Open Source und lokal ausführbar – du behältst volle Kontrolle über Modell, Daten und Output. Midjourney läuft ausschließlich cloudbasiert, liefert out-of-the-box oft ästhetisch stärkere Ergebnisse, bietet aber kaum technische Anpassungsmöglichkeiten und keine Datensouveränität.

▶ Welche Hardware brauche ich, um Stable Diffusion lokal zu betreiben?

Für flüssiges Arbeiten empfiehlt sich eine NVIDIA- oder AMD-GPU mit mindestens 8 GB VRAM. Basismodelle wie Stable Diffusion 1.5 laufen auch auf 4 GB VRAM, wenn man Optimierungen wie Half-Precision (fp16) aktiviert. Die Large-Variante von SD 3.5 benötigt deutlich mehr Ressourcen – hier sind 16 GB VRAM oder mehr empfehlenswert.

▶ Was ist LoRA bei Stable Diffusion?

LoRA steht für Low-Rank Adaptation und ist eine Methode zum effizienten Finetuning. Statt das gesamte Modell neu zu trainieren, wird ein kleiner Adapter trainiert, der nur die Gewichts-Deltas speichert. Das ermöglicht es, mit wenigen Referenzbildern einen spezifischen Stil, eine Person oder ein Objekt ins Modell einzuprägen – mit einem Bruchteil der Rechenleistung eines vollständigen Trainings.

Stand: 20. März 2026