Wenn du aus einem Moodboard (Bilder), ein paar Beispielshots (Clips) und einem Soundbett (Audio) in einem Durchlauf ein konsistentes Video willst, ist der Kernhebel bei Seedance 2.0 nicht „besser prompten“, sondern Referenzen gezielt zu rollenbasierten Inputs zu machen. Genau dafür ist die Multi-Referenz-Fähigkeit ausgelegt: bis zu 9 Bilder, 3 Videoclips und 3 Audioclips in einer Generierung. Über eine OpenAI-kompatible Schnittstelle wie CometAPI wird daraus ein Workflow, den auch ein normaler Mitarbeiter in einer Agentur bedienen kann, ohne erst ein eigenes Backend zu bauen.
- Seedance 2.0 ermöglicht über die CometAPI die Kombination von bis zu 9 Bildern, 3 Videos und 3 Audioclips in nur einer Videogenerierung.
- Für konsistente Ergebnisse müssen Anwender ihre Referenzen in klare Schichten für Identität, Ästhetik und Bewegung aufteilen und im Prompt priorisieren.
- Ein methodischer Drei-Schritte-Workflow zur isolierten Fixierung von Motiv, Bewegung und Look minimiert Fehlerquellen und reduziert den Postproduktionsaufwand drastisch.
Dieser Artikel beschreibt den praktischen Ablauf über CometAPI aus Creator-Perspektive: Welche Referenzen du in welcher Reihenfolge vorbereitest, wie du Prompts strukturierst, damit das Modell nicht „Referenz-Salat“ produziert, und wie du Iterationen so aufsetzt, dass du am Ende weniger Postproduktion brauchst. Wichtig: Konkrete API-Parameter, Pricing oder Endpoint-Details sind in den bereitgestellten Quellen nicht dokumentiert; ich bleibe deshalb bei dem, was die Quellen belastbar hergeben, und konzentriere mich auf den kreativen Workflow und Prompt-Patterns.
Workflow-Design: Multi-Referenz ist ein Interface-Problem, kein Prompt-Trick
Multi-Referenz klingt nach „mehr Input = mehr Kontrolle“. In der Praxis ist es zuerst ein Usability-Thema: Du musst dem Modell klar signalisieren, welche Assets „Identität“ (Charakter, Produkt), welche „Bildsprache“ (Licht, Color, Set) und welche „Bewegung“ (Kamera, Blocking) tragen. Die Quellenlage bestätigt vor allem die Kapazität und die Multimodalität: Seedance 2.0 kann bis zu 9 Bilder, 3 Videos und 3 Audio-Tracks in einer einzelnen Generierung kombinieren, und es werden mehrere Eingabemodi wie Text-to-Video, Image-to-Video und Reference-to-Video beschrieben. Diese Multi-Referenz-Fähigkeit ist der entscheidende Unterschied zwischen „Prompt-only“-Video und einem workflowfähigen Produktionsprozess.
Du solltest deshalb deine Inputs in drei „Schichten“ organisieren, bevor du überhaupt textest:
- Identity-Layer (Bilder): 2–4 Bilder, die das Hauptmotiv eindeutig definieren (Figur, Produkt, Outfit, Oberflächen). Vermeide hier starke Stil-Experimente. Ziel: Wiedererkennbarkeit über Schnitte.
- Look-Layer (Bilder): 2–4 Bilder für Licht, Color, Materialität, Set-Design. Wenn du hier mischst, dann bewusst (z.B. „kaltes Neon“ vs. „goldene Stunde“) und nicht als Zufall.
- Motion-Layer (Clips): 1–3 Clips, die primär Kamera und Timing „zeigen“, nicht Story. Ein Clip kann ein Dolly-In sein, ein zweiter ein Handheld-Pan. Das Modell soll Bewegungslogik übernehmen, nicht die exakten Inhalte.
Audio ist die vierte Schicht. In den recherchierten Beschreibungen wird Audio als Referenzinput geführt; für Creator heißt das: Audio kann als Taktgeber für Schnittgefühl, Tempo und Stimmung dienen. Praktisch funktioniert Audio am besten, wenn du es als „Rhythmus-Constraint“ denkst, nicht als nachträglichen Soundtrack.
Prompt-Struktur: Ein Pattern, das Referenzen entkoppelt statt vermischt
Multi-Referenz scheitert häufig an einem Prompt, der alles gleichzeitig will: „cinematic, product, fast cuts, neon, documentary, anime“. Der Output wird dann generisch, weil das Modell widersprüchliche Ziele mittelt. Für Seedance 2.0 (und ähnliche Multi-Referenz-Modelle) brauchst du eine Prompt-Struktur, die Entscheidungen priorisiert und Widersprüche explizit auflöst.
Bewährt ist ein vierteiliger Prompt, der wie eine kleine Produktionsanweisung wirkt. Du beschreibst nicht „Style“, sondern „Entscheidungen“:
- Shot-Intent: Was ist der Kern des Shots (z.B. „Hero shot“, „explainer shot“, „transition shot“)?
- Subject Constraints: Was darf sich am Motiv nicht ändern (Outfit, Logo-Position, Material)?
- Camera & Motion: Eine Bewegung, ein Fokus, ein Timing. Nicht drei.
- Look Constraints: Licht und Farbwelt in 1–2 Sätzen, plus Ausschlüsse („kein Cartoon-Look“).
Wenn du mehrere Referenztypen stapelst, solltest du im Text außerdem Rollen vergeben: „Use the image references for subject identity and wardrobe; use video references for camera motion and pacing; use audio references for rhythm.“ Das ist keine Magie, sondern eine mentale Leitplanke gegen Vermischung.
Konkreter Prompt-Vergleich, wie er in der Praxis Sinn ergibt:
- Variante A (zu offen): „Cinematic ad, neon, fast, energetic, closeups, handheld, smooth dolly, dramatic lighting“ → Risiko: Mittelwert-Ästhetik, wechselnde Identität, unklare Kamera.
- Variante B (priorisiert): „Hero shot of the subject, maintain identical outfit and face details. Camera: slow dolly-in, shallow depth of field, focus stays on eyes. Lighting: cool neon rim light, soft key light, no cartoon look. Pacing matches audio beat.“ → Risiko sinkt, weil Konflikte reduziert sind.
Wichtig aus UX-Sicht: Speichere dir dieses Pattern als Vorlage (Prompt-Template). Dann produziert dein Team weniger Zufallsqualität und du bekommst reproduzierbare Iterationen.
Iterations-Loop über CometAPI: Wie du ohne Postproduktion näher ans Ziel kommst
Die offene Frage bei vielen Teams ist nicht „kann das Modell das?“, sondern „wie teste ich schnell genug, ohne dass mein Creative in Iterations-Hölle endet?“. Genau hier ist eine OpenAI-kompatible API ein Workflow-Boost: Sie lässt sich in bestehende Tooling-Patterns integrieren (Requests, Batch-Queues, Asset-Management), ohne dass jeder Creator SDK-Dokus lesen muss. Die bereitgestellte Quelle bestätigt CometAPI als Plattform; weitergehende technische Details sind im Material nicht belegt, deshalb bleibe ich beim prozessualen Design.
Der Loop, der sich in Agenturen bewährt, besteht aus drei Durchläufen mit jeweils einem Ziel:
- Pass 1 (Lock Identity): Reduziere Motion. Nutze primär Bildreferenzen. Ziel ist ein Clip, in dem Figur/Produkt konstant bleibt. Sobald das sitzt: diese Kombi als „Identity-Set“ fixieren.
- Pass 2 (Lock Motion): Nimm 1–2 Videoreferenzen dazu und halte Look-Text knapp. Ziel ist Kameralogik und Timing. Wenn der Output „zittert“ oder jumpy wirkt, ist dein Motion-Layer zu heterogen.
- Pass 3 (Lock Look + Audio): Ergänze Look-Bilder und Audio. Jetzt geht es um Finish-Ästhetik und Rhythmus, nicht mehr um Identität.
Was du dabei bewusst vermeidest: In jedem Pass gleichzeitig an Identität, Motion und Look zu drehen. Das fühlt sich schneller an, ist aber fast immer langsamer, weil du Fehlerursachen nicht isolierst.
Ein weiterer Hebel gegen Postproduktion ist „Continuity-Text“: Du schreibst die Dinge auf, die Editor sonst in Schnitt und Grading ausbügeln würde (z.B. „keep exposure stable“, „no sudden zoom“, „consistent color temperature“). Das ersetzt kein Grading, reduziert aber die Ausreißer, die später Zeit fressen.
So What? Copyright, Rechtekette und Creative-Workflow unter EU AI Act und DSGVO
Multi-Referenz-Video ist rechtlich und organisatorisch heikler als Text-to-Video, weil du typischerweise mit fremden oder kundenseitigen Assets arbeitest: Fotos aus dem Shooting, Referenzclips aus Kampagnen, Audio aus Libraries. Das Risiko liegt weniger in der Generierung selbst, sondern in der Rechtekette der Inputs und der internen Dokumentation: Kannst du im Zweifel nachweisen, dass du die Referenzen nutzen durftest und wie sie in die Produktion eingeflossen sind?
Für DACH-Teams ist außerdem der EU AI Act relevant: Seit Februar 2025 gelten Verbote bestimmter KI-Praktiken und eine KI-Literacy-Pflicht; seit August 2025 sind GPAI-Regeln, Governance und Strafen in Kraft, und ab August 2026 greift der Hauptteil des Gesetzes für Hochrisiko-KI. Video-Generierung für Marketing ist nicht automatisch Hochrisiko, aber deine Organisation muss KI-Kompetenz nachweisbar aufbauen und Governance etablieren, wenn KI systematisch in Workflows läuft. Praktisch heißt das: Lege eine interne Checkliste an (Rechte an Bild/Video/Audio, Freigaben, Nutzungszweck, Speicherfristen), und halte die Prompt- und Referenz-Sets projektbezogen nachvollziehbar.
DSGVO kommt ins Spiel, sobald in Referenzen Personen erkennbar sind oder Kundendaten verarbeitet werden. Dann geht es um Zweckbindung, Minimierung und ggf. eine Datenschutz-Folgenabschätzung. Für Creator wirkt das trocken, aber im Alltag ist es simpel: Nutze für Tests synthetische oder freigegebene Assets, und trenne „Experiment“ strikt von „Kunde“ in deinem Asset-Ordner und in deiner API-Queue.
Fazit: Multi-Referenz-Video wird produktionsfähig, wenn du Inputs wie Bausteine behandelst
Seedance 2.0 ist für Creator und Agenturen dann interessant, wenn du den Prozess wie eine kleine Produktionspipeline aufziehst: Referenzen in Rollen sortieren, Prompts priorisieren, Iterationen in drei Locks aufteilen. Über CometAPI wird das operativ leichter, weil eine OpenAI-kompatible Schnittstelle typischerweise weniger Reibung in bestehende Tools bringt. Entscheidend ist nicht, ob du „den perfekten Prompt“ findest, sondern ob dein Team ein wiederholbares Template hat, mit dem auch Nicht-Techniker konsistente Ergebnisse liefern.
Wenn du nur eine Sache mitnimmst: Reduziere Widersprüche. Jedes zusätzliche Referenz-Asset ist nur dann Kontrolle, wenn du ihm eine klare Aufgabe gibst. Sonst ist es Rauschen — und Rauschen ist der Grund, warum du am Ende doch wieder in der Postproduktion landest.
❓ Häufig gestellte Fragen
✅ 7 Claims geprüft, davon 6 mehrfach verifiziert
📚 Quellen