Seedance 2.0 verschiebt die Kontrolle in der KI-Videogenerierung auf die Seite des Creators: Bis zu 12 Referenzen als Input, 2K-Output mit nativer Audiospur in unter einer Minute sowie Multi‑Shot‑Storytelling erlauben konsistente, wiederholbare Ergebnisse statt Einmalglück. Die Engine ist explizit reference‑first aufgebaut und akzeptiert Text, Bilder, Videos und Audio als Steuerdaten für Look, Bewegung und Rhythmus (AtlasCloud; WaveSpeed).
- Seedance 2.0 ermöglicht durch multimodales Referenz-Prompting via @-Syntax die präzise Steuerung von Bild, Kamera und Audio mit bis zu 12 Inputs.
- Die Engine liefert konsistente 2K-Videos mit nativer Audiospur in unter 60 Sekunden und unterstützt Batch-Produktionen von bis zu 20 Clips parallel.
- Dank Multi-Shot-Fähigkeit entstehen szenenübergreifende Geschichten ohne Stilbruch, während Transparenz-Workflows die Compliance zum EU AI Act sichern.
Im Prompt verknüpfst du Referenzen direkt via @-Syntax (z. B. @Image1, @Video1) und weist damit Rollen wie Charakter, Schauplatz, Kamerabewegung oder Audiorhythmus zu. Batch‑Jobs mit bis zu 20 Clips parallel und eine API für Image‑to‑Video/Pipelines machen aus Einzelstücken Serienproduktion – ohne Stilbruch (Flux AI; ad-hoc-news; NXCode).
Referenz-Prompting: Kontrolle statt Zufall
Seedance 2.0 ist auf „Omni-Reference“ getrimmt: Du kombinierst Bilder für Look/Charakter, Clips für Kameratrajektorien/Bewegungsmuster und Audiospuren für Timing und Atmosphäre. Das System liest diese Hinweise multimodal und synchronisiert sie im Output. Der Kernnutzen: konsistente Figuren, reproduzierbare Shots und gezielte Stiltreue (WaveSpeed).
Für die Eingabe hat sich eine klare Prompt-Struktur bewährt, die das Modell nachprüfbar steuert (AtlasCloud):
- [Subjekt] – wer oder was dominiert die Szene (z. B. @Image1 als Hauptcharakter)
- [Aktion] – präzise Verben, Bewegungen, Interaktionen
- [Umgebung] – Ort, Tageszeit, Lichtstimmung (optional @Image2 als Set-Referenz)
- [Visueller Stil] – Materialität, Farbe, Ästhetik
- [Kamera-Technik] – Brennweite, Fahrten, Winkel (optional @Video1 als Kamerareferenz)
- [Stimmung/Audio] – Tempo, Emotion, Geräuschkulisse (optional @Audio1)
Prompt-Vergleich in der Praxis:
Prompt A (nur Text): „Close-up eines Skateboarders bei Abendsonne, dynamische Kamerafahrt, urbane Farben, energetisch.“
Prompt B (mit Referenzen): „@Image1 als Skater, @Image2 als Rooftop-Set. @Video1 für orbitale Dolly-Fahrt um das Subjekt, @Audio1 für treibenden Beat. Close-up, golden hour, satte Orange-/Tealtöne, sanfte Motion Blur, energetische Stimmung.“
Mit Prompt B erreichst du nachvollziehbare Kontrolle: @Image1 fixiert das Gesicht/Outfit, @Video1 verankert die Kamerakurve, @Audio1 setzt den Schnittimpuls. Tutorials und Demos zeigen, dass diese Arbeitsweise systematisch reproduzierbar ist (YouTube-Demo).
Multi‑Shot und Audio: Konsistenz über Szenen hinweg
Seedance 2.0 unterstützt Multi‑Shot‑Storytelling, sodass zusammenhängende Einstellungen mit konsistenten Charakteren und Übergängen aus einem einzigen Prompt erzeugt werden können. Dialoge und Umgebungsgeräusche werden nativ mitgeführt und synchronisiert – ein Effekt der Dual‑Branch‑Architektur für Bild und Ton (NXCode).
Zwei Modi sind relevant: der Erst-/Letzter‑Frame‑Modus (Startbild plus Anweisung) und der Universal Reference Mode (freie Kombination mehrerer Referenzen). Für konsistente Charaktere legst du ein Hero‑Bild als @Image1 fest, ordnest Szenenwechsel klar an und definierst die Kameralogik pro Shot.
- Shot 1: „@Image1 spricht in @Image2 (Büro) zur Kamera, statische 35mm, ruhiger Ton“
- Shot 2: „@Image1 geht zu @Image3 (Fenster), @Video1 als langsame Dolly‑Seitwärtsfahrt, weicher Übergang“
- Shot 3: „@Image1 im Profil, Lichtwechsel zu blue hour, @Audio1 senkt Tempo, Close‑up“
Ergebnis: Charakter bleibt erkennbar, Blickachsen stimmen, Audio treibt Rhythmus. In Demos werden zudem Lippenbewegungen und Musikverständnis betont – wichtig für Social‑Cuts und Werbewelten (YouTube-Demo).
Batch & Pipelines: Fließband ohne Stilbruch
Für Produktionsumgebungen zählt Durchsatz. Laut Berichten lassen sich bis zu 20 Clips parallel absetzen. Eine API für Image‑to‑Video sowie automatisierte Pipelines ist dokumentiert. Das reduziert Handover‑Zeit und hilft bei A/B‑Motivtests, Social‑Ad‑Varianten oder Lokalisierungen – bei gleichbleibendem Stil (ad-hoc-news; AtlasCloud).
Aus UX‑Sicht funktioniert das wie eine saubere Regie‑Mappe: Du bereitest Referenzen vor, benennst sie sprechend und legst dir wiederverwendbare Prompt‑Snippets an. Das ist keine Produktfunktion, sondern ein Workflow‑Prinzip für reproduzierbare Qualität.
- Dateinamen-Standard: „ch_anna_v03.png“, „cam_dolly_orbit.mp4“, „amb_city_evening.wav“
- Ordnerstruktur: /characters, /sets, /camera, /audio
- Prompt-Snippets für Kamerasprache: „35mm statisch“, „dolly seitwärts langsam“, „handheld jitter 10%“
- Shotlisten als Textbausteine: „S1 erklären“, „S2 zeigen“, „S3 close‑up call to action“
Der Vorteil zeigt sich messbar an Zeit und Konsistenz: 2K‑Clips mit nativer Audiospur entstehen laut Guides in weniger als 60 Sekunden, Referenz‑Slots (bis zu 12) sichern Identität und Look über Varianten hinweg (AtlasCloud; WaveSpeed).
So What? Rechte, EU AI Act und Creative-Workflows
Copyright: Multi‑Referenzen erhöhen die Verantwortung. Verwende nur Assets, deren Nutzung geklärt ist (Lizenz, Eigenproduktion, Public Domain). Stil‑ oder Marken‑Mimikry kann rechtliche Risiken bergen, wenn Verwechslungsgefahr entsteht. Für Agenturen empfiehlt sich eine zentrale Rechteprüfung pro Referenzslot (Character, Set, Kamera, Audio) und ein Freigabeprotokoll.
Was bedeutet das für den EU AI Act? Seit August 2025 gelten Transparenz- und Governance‑Pflichten für generative KI (GPAI). Ab August 2026 greifen wesentliche Teile zu Hochrisiko‑Systemen; generative Video‑Engines sind i. d. R. kein Hochrisiko, müssen aber Kennzeichnung und Informationspflichten erfüllen. Verstöße können mit bis zu 35 Mio. EUR bzw. 7% des weltweiten Umsatzes für verbotene Praktiken und bis zu 15 Mio. EUR bzw. 3% für Hochrisiko‑Verstöße sanktioniert werden. Praxisnah heißt das: Kennzeichne KI-Generates als solche, pflege Metadaten und setze, wo möglich, robuste Wasserzeichen, um Herkunft und Bearbeitungen nachvollziehbar zu halten.
DSGVO: Arbeitest du mit Personenbezug (Gesichter, Stimmen), prüfe die Rechtsgrundlage, informiere Betroffene und bewerte automatisierte Entscheidungen (Art. 22) sowie Risiken per DSFA (Art. 35). Bei Nutzung von US‑ oder CN‑Diensten achte auf Drittlandtransfer‑Mechanismen und Datenminimierung.
Fazit: Reference-first zahlt auf Qualität und Skalierung ein
Für Creator und Agenturen ist der Hebel klar: Baue einen reference‑first‑Workflow auf. Setze pro Projekt eine kuratierte Mappe aus Character‑, Set‑, Kamera‑ und Audio‑Referenzen auf, arbeite mit @‑Syntax und einer festen Prompt‑Grammatik. Nutze Multi‑Shot für stringente Stories und Batch/API für Varianten und Lokalisierungen. Verankere parallel eine Rechte‑ und AI‑Act‑Checkliste, damit Output und Compliance Hand in Hand laufen. So wird aus Inspiration ein reproduzierbarer Produktionsstandard – mit kontrollierter Bildsprache, messbarer Geschwindigkeit und weniger Re‑Renders.
❓ Häufig gestellte Fragen
📚 Quellen
- AtlasCloud: How to Use Seedance 2.0 for Video Generation
- WaveSpeed: Seedance 2.0 – Complete Guide to Multimodal Video Creation
- Flux AI: How to Get Controlled, Consistent Results
- NXCode: NXCode