Netflix hat das Framework VOID (Video Object and Interaction Deletion) als Open Source veröffentlicht, das Objekte präzise aus Videos entfernt und dabei physikalische Spuren wie Schatten und Kollisionseffekte korrigiert. Dieses Modell zielt darauf ab, die zeitraubende manuelle Retusche und das Rotoscoping in der Postproduktion zu automatisieren und somit die Effizienz von VFX-Pipelines erheblich zu steigern. Der Code, Modell-Checkpoints sowie eine Demo sind auf GitHub und Hugging Face unter einer Apache-2.0-Lizenz verfügbar, was eine kommerzielle Nutzung ermöglicht.
- Netflix hat das KI-Framework VOID veröffentlicht, welches Objekte samt physikalischer Effekte wie Schatten präzise und automatisiert aus Videos entfernt.
- Das Modell basiert auf Alibabas CogVideoX-Architektur und nutzt für die Maskengenerierung Technologien wie Googles Gemini 3 Pro und Metas Segment Anything.
- Durch die Apache-2.0-Lizenz ist eine kommerzielle Nutzung kostenfrei möglich, erfordert lokal jedoch Hardware mit mindestens 40 GB VRAM.
Technische Architektur und Trainingsdaten
VOID basiert auf Alibabas CogVideoX-Fun-V1.5-5b-InP, einem 5-Milliarden-Parameter-Modell mit 3D-Transformer-Architektur, das Netflix mit synthetischen Daten von Google (Kubric) und dem akademischen HUMOTO-Datensatz verfeinert hat. Für die vorgeschaltete Maskengenerierung wird Googles Gemini 3 Pro zur Szenenanalyse genutzt, während Metas SAM2 und SAM3 die Objektsegmentierung übernehmen. Ein innovatives Quadmask-Encoding teilt jeden Pixel in vier semantische Werte auf: Objekt, Überlappungsbereich, beeinflusste Umgebung und Hintergrund. Das Modell verarbeitet Auflösungen bis zu 384×672 Pixel und bis zu 197 Frames in zwei Durchläufen. Die Anforderungen für das Modell liegen laut offiziellen Angaben bei mindestens 40 GB VRAM.
Die Apache-2.0-Lizenz macht VOID besonders attraktiv für Agenturen und Videoproduzenten, da es kostenfrei in bestehende Compositing-Pipelines integriert werden kann und somit eine deutliche Kostensenkung bei repetitiven Aufgaben verspricht. Aus regulatorischer Sicht gilt VOID als Assistenztool und dürfte nicht als Hochrisiko-System unter dem EU AI Act eingestuft werden. Dennoch sollten Studios bei der Verarbeitung von Personenaufnahmen die DSGVO-Konformität sicherstellen.
❓ Häufig gestellte Fragen
📚 Quellen
- MarkTechPost: Netflix AI Team Just Open-Sourced VOID
- Hugging Face: netflix/void-model – Modell-Details und Dokumentation
- arXiv: VOID: Video Object and Interaction Deletion