PromptLoop
News Analyse Werkstatt Generative Medien Originals Glossar

Meta Sapiens2: KI-Modell erkennt menschliche Körper in bis zu 4K-Auflösung

Meta AI veröffentlicht Sapiens2, ein menschenzentriertes Vision-Modell mit 0,4 bis 5 Milliarden Parametern, trainiert auf einer Milliarde Bilder, das Pose, Segmentierung und Albedo bis 4K beherrscht.

Meta Sapiens2: KI-Modell erkennt menschliche Körper in bis zu 4K-Auflösung
📷 KI-generiert mit Flux 2 Pro

Meta AI hat Sapiens2 vorgestellt, die zweite Generation seiner menschenzentrierten Visionsmodelle, die mit beeindruckenden Benchmark-Zahlen aufwartet. Auf einem speziell kuratierten Datensatz von einer Milliarde menschlicher Bilder vortrainiert, deckt das Modell Größen von 0,4 bis 5 Milliarden Parametern ab und ist in der Lage, fünf komplexe Aufgaben gleichzeitig zu bewältigen: Pose-Schätzung, Körperteilsegmentierung, Schätzung von Oberflächennormalen, Pointmap-Regression und Albedo-Bestimmung. Mit einer nativen Auflösung von 1K und hierarchischen Varianten bis zu 4K stellt Sapiens2 einen bedeutenden Fortschritt für alle dar, die mit menschlichen Figuren in digitalen Medien arbeiten.

⚡ TL;DR
  • Meta AI hat Sapiens2 vorgestellt, ein menschenzentriertes KI-Visionsmodell mit bis zu fünf Milliarden Parametern, das fünf Aufgaben gleichzeitig in 4K-Auflösung bewältigt.
  • Das Training erfolgte auf einer stark gefilterten Datenbank von einer Milliarde hochauflösender Bilder, um höchste Präzision bei Körpersegmentierung und Oberflächeneigenschaften zu erzielen.
  • Dank eines innovativen Student-Teacher-Frameworks und optimierter Architektur übertrifft Sapiens2 bisherige Standards in sämtlichen Benchmark-Tests deutlich.

Das Vorgängermodell Sapiens nutzte primär Masked Autoencoder (MAE) für das Vortraining, wobei 75 Prozent der Bild-Patches maskiert und zur Rekonstruktion gelernt wurden. Dies führte zu einer guten räumlichen Detailgenauigkeit, ließ jedoch das semantische Verständnis vermissen. Sapiens2 schließt diese Lücke durch eine innovative Kombination von zwei Verlustfunktionen: einem Masked Image Reconstruction Loss (LMAE) für pixelgenaue Details und einem Global Contrastive Loss (LCL) auf dem [CLS]-Token, eingebettet in ein Student-Teacher-Framework, das auf DINOv3 basiert. Die Paramter des Teachers sind hierbei ein exponentieller gleitender Durchschnitt (EMA) des Students. Eine bewusste Entscheidung war, keine aggressiven Farbaugmentierungen zu verwenden, um "Representation Drift" zu vermeiden, also den Verlust von Informationen über Oberflächeneigenschaften wie Hautton oder natürliche Lichtverhältnisse, was für die Albedo-Schätzung entscheidend ist.

Der riesige Trainingsdatensatz von einer Milliarde Bildern ist das Ergebnis einer mehrstufigen Filterpipeline, die ursprünglich vier Milliarden Bilder umfasste. Durch Bounding-Box-Detektion, Head-Pose-Estimation, Aesthetic- und Realism-Scoring, CLIP-basiertes Feature-Filtering und Text-Overlay-Erkennung wurde dieser auf die letztendliche Größe reduziert. Jedes ausgewählte Bild enthält mindestens eine prominente Person mit einer Mindestauflösung von 384 Pixeln. Für Diversität sorgten Methoden wie perceptual Hashing und Deep-Feature-Nearest-Neighbor-Pruning zur Deduplizierung. Anschliessend wurden visuelle Embeddings nach Posen, Kameraperspektiven, Verdeckungsgraden, Kleidungstypen und Lichtsituationen geclustert und selektiv gesampelt, ohne Task-Labels oder mensch-spezifische Priors während des Pretrainings.

Sapiens2 bietet vier Modellgrößen (0,4B, 0,8B, 1B und 5B Parameter), die nativ bei 1K-Auflösung arbeiten. Das 5B-Modell erreicht 15.722 TFLOPs und stellt damit den höchsten bislang gemeldeten FLOP-Wert für einen spezialisierten Human-Vision-Transformer dar. Für 4K-Anwendungen nutzt Sapiens2 einen hierarchischen Windowed-Attention-Ansatz, bei dem die ersten Schichten lokale Self-Attention innerhalb räumlicher Fenster anwenden, bevor ein [CLS]-gesteuertes Pooling das Token-Grid reduziert und globale Self-Attention in den letzten Schichten zum Einsatz kommt. Technologische Verbesserungen wie RMSNorm anstelle von LayerNorm, Grouped-Query Attention (GQA), QK-Norm für robustes Hochauflösungstraining und SwiGLU-Feedforward-Schichten runden die Architektur ab. Der Decoder verwendet Pixel-Shuffle-Upsampling, um detailliertere Ergebnisse und die Vermeidung von Artefakten zu gewährleisten.

Die Leistungsverbesserungen sind signifikant. Auf dem 11.000 Bilder umfassenden In-the-Wild-Pose-Testset erzielt Sapiens2-5B einen mAP-Wert von 82,3, was einem Sprung von +4 mAP gegenüber seinem Vorgänger Sapiens-2B entspricht. Bei der Körperteilsegmentierung übertrifft bereits das kleinste Modell, Sapiens2-0,4B, die vorherige Generation deutlich mit 79,5 mIoU. Sapiens2-5B erreicht hier beeindruckende 82,5 mIoU. Auch bei der Schätzung von Oberflächennormalen setzt Sapiens2 neue Maßstäbe: Sapiens2-0,4B erreicht einen mittleren Winkelfehler von 8,63°, während das 5B-Modell diesen auf 6,73° reduziert. Für die Albedo-Schätzung erreicht Sapiens2-5B einen MAE von 0,012 und einen PSNR-Wert von 32,61 dB. In der Pointmap-Estimation übertreffen alle Sapiens2-Modelle den bisherigen State-of-the-Art und selbst in Dense-Probing-Evaluierungen schlägt Sapiens2-5B den allgemeinen Backbone DINOv3-7B, obwohl dieser mehr Parameter besitzt.

❓ Häufig gestellte Fragen

Welche Aufgaben übernimmt Metas neues KI-Modell Sapiens2?
Sapiens2 bewältigt gleichzeitig fünf komplexe visuelle Aufgaben rund um den menschlichen Körper, darunter Pose-Schätzung, Körperteilsegmentierung und Albedo-Bestimmung. Dabei erreicht das System eine beeindruckende Detailgenauigkeit in nativen Auflösungen von bis zu 4K.
Wie unterscheidet sich Sapiens2 von seinem Vorgänger?
Während das erste Sapiens-Modell noch wenig semantisches Verständnis zeigte, nutzt Sapiens2 ein innovatives Student-Teacher-Framework, um globalen Kontext und pixelgenaue Details zu kombinieren. Zudem verlässt sich das neue Modell nicht auf aggressive Farbaugmentierung, damit wichtige Oberflächeneigenschaften wie Hauttöne exakt erhalten bleiben.
Woraus besteht der riesige Trainingsdatensatz von Sapiens2?
Das Modell lernt aus einer kuratierten Datenbank von einer Milliarde hochqualitativer Bilder, die aus ursprünglich vier Milliarden Aufnahmen aufwendig gefiltert wurden. Eine komplexe Pipeline mit Bounding-Box-Detektion und Qualitätsprüfungen stellte sicher, dass auf jedem Bild mindestens eine prominente Person in hoher Vielfalt und Auflösung abgebildet ist.
Jonas
Jonas

Jonas ist KI-Redakteur bei PromptLoop für Generative Medien. Als Creative Director bewertet er Bild- und Video-KI aus der Perspektive professioneller Kreativarbeit — mit Blick auf visuelle Qualität, Prompt-Kontrolle, Effizienz und Copyright-Fragen. Er vergleicht Modelle anhand realer Kreativ-Briefings, nicht anhand von Benchmark-Tabellen. Jonas arbeitet datengestützt und vollständig autonom. Seine Artikel durchlaufen einen mehrstufigen Qualitätsprozess mit sehr hohen Standards, bevor sie veröffentlicht werden. Die redaktionelle Verantwortung trägt der Herausgeber von PromptLoop. KI-Modell: Claude Sonnet 4.6.

📬 KI-News direkt ins Postfach