Netflix VOID: Open-Source-Framework löscht…

Netflix VOID: Open-Source-Framework löscht Objekte aus Videos inklusive Physik

Netflix hat am 4. April 2026 das KI-Framework VOID open-sourced. Es entfernt Objekte aus Videos mitsamt physikalischen Spuren wie Schatten und Reflexionen – unter Apache-2.0-Lizenz.

Jonas

5. April 2026, 08:01 Uhr ·2 Min. Lesezeit

Netflix hat das Framework VOID (Video Object and Interaction Deletion) als Open Source veröffentlicht, das Objekte präzise aus Videos entfernt und dabei physikalische Spuren wie Schatten und Kollisionseffekte korrigiert. Dieses Modell zielt darauf ab, die zeitraubende manuelle Retusche und das Rotoscoping in der Postproduktion zu automatisieren und somit die Effizienz von VFX-Pipelines erheblich zu steigern. Der Code, Modell-Checkpoints sowie eine Demo sind auf GitHub und Hugging Face unter einer Apache-2.0-Lizenz verfügbar, was eine kommerzielle Nutzung ermöglicht.

⚡ TL;DR

Netflix hat das KI-Framework VOID veröffentlicht, welches Objekte samt physikalischer Effekte wie Schatten präzise und automatisiert aus Videos entfernt.
Das Modell basiert auf Alibabas CogVideoX-Architektur und nutzt für die Maskengenerierung Technologien wie Googles Gemini 3 Pro und Metas Segment Anything.
Durch die Apache-2.0-Lizenz ist eine kommerzielle Nutzung kostenfrei möglich, erfordert lokal jedoch Hardware mit mindestens 40 GB VRAM.

Technische Architektur und Trainingsdaten

VOID basiert auf Alibabas CogVideoX-Fun-V1.5-5b-InP, einem 5-Milliarden-Parameter-Modell mit 3D-Transformer-Architektur, das Netflix mit synthetischen Daten von Google (Kubric) und dem akademischen HUMOTO-Datensatz verfeinert hat. Für die vorgeschaltete Maskengenerierung wird Googles Gemini 3 Pro zur Szenenanalyse genutzt, während Metas SAM2 und SAM3 die Objektsegmentierung übernehmen. Ein innovatives Quadmask-Encoding teilt jeden Pixel in vier semantische Werte auf: Objekt, Überlappungsbereich, beeinflusste Umgebung und Hintergrund. Das Modell verarbeitet Auflösungen bis zu 384×672 Pixel und bis zu 197 Frames in zwei Durchläufen. Die Anforderungen für das Modell liegen laut offiziellen Angaben bei mindestens 40 GB VRAM.

Die Apache-2.0-Lizenz macht VOID besonders attraktiv für Agenturen und Videoproduzenten, da es kostenfrei in bestehende Compositing-Pipelines integriert werden kann und somit eine deutliche Kostensenkung bei repetitiven Aufgaben verspricht. Aus regulatorischer Sicht gilt VOID als Assistenztool und dürfte nicht als Hochrisiko-System unter dem EU AI Act eingestuft werden. Dennoch sollten Studios bei der Verarbeitung von Personenaufnahmen die DSGVO-Konformität sicherstellen.

❓ Häufig gestellte Fragen

▶ Was ist das Netflix VOID-Framework?

VOID (Video Object and Interaction Deletion) ist ein KI-Modell, das Objekte mitsamt ihrer physikalischen Spuren wie Schatten oder Kollisionen präzise aus Videos entfernt. Es automatisiert aufwendige manuelle Retuschen und Maskierungen in der Postproduktion.

▶ Darf VOID für kommerzielle Videoproduktionen genutzt werden?

Ja, Netflix hat den Code und die Modell-Checkpoints unter der freizügigen Apache-2.0-Lizenz veröffentlicht. Dadurch können Agenturen und Videoproduzenten das Tool kostenfrei in ihre kommerziellen Projekte integrieren.

▶ Welche Hardware-Voraussetzungen gibt es für VOID?

Für die lokale Ausführung des KI-Modells ist leistungsstarke Hardware erforderlich. Offiziellen Angaben zufolge benötigen Nutzer eine Grafikkarte mit mindestens 40 GB VRAM.

📚 Quellen