Meta Sapiens2: KI-Modell erkennt menschliche…

Meta AI hat Sapiens2 vorgestellt, die zweite Generation seiner menschenzentrierten Visionsmodelle, die mit beeindruckenden Benchmark-Zahlen aufwartet. Auf einem speziell kuratierten Datensatz von einer Milliarde menschlicher Bilder vortrainiert, deckt das Modell Größen von 0,4 bis 5 Milliarden Parametern ab und ist in der Lage, fünf komplexe Aufgaben gleichzeitig zu bewältigen: Pose-Schätzung, Körperteilsegmentierung, Schätzung von Oberflächennormalen, Pointmap-Regression und Albedo-Bestimmung. Mit einer nativen Auflösung von 1K und hierarchischen Varianten bis zu 4K stellt Sapiens2 einen bedeutenden Fortschritt für alle dar, die mit menschlichen Figuren in digitalen Medien arbeiten.

⚡ TL;DR

Meta AI hat Sapiens2 vorgestellt, ein menschenzentriertes KI-Visionsmodell mit bis zu fünf Milliarden Parametern, das fünf Aufgaben gleichzeitig in 4K-Auflösung bewältigt.
Das Training erfolgte auf einer stark gefilterten Datenbank von einer Milliarde hochauflösender Bilder, um höchste Präzision bei Körpersegmentierung und Oberflächeneigenschaften zu erzielen.
Dank eines innovativen Student-Teacher-Frameworks und optimierter Architektur übertrifft Sapiens2 bisherige Standards in sämtlichen Benchmark-Tests deutlich.

Das Vorgängermodell Sapiens nutzte primär Masked Autoencoder (MAE) für das Vortraining, wobei 75 Prozent der Bild-Patches maskiert und zur Rekonstruktion gelernt wurden. Dies führte zu einer guten räumlichen Detailgenauigkeit, ließ jedoch das semantische Verständnis vermissen. Sapiens2 schließt diese Lücke durch eine innovative Kombination von zwei Verlustfunktionen: einem Masked Image Reconstruction Loss (LMAE) für pixelgenaue Details und einem Global Contrastive Loss (LCL) auf dem [CLS]-Token, eingebettet in ein Student-Teacher-Framework, das auf DINOv3 basiert. Die Paramter des Teachers sind hierbei ein exponentieller gleitender Durchschnitt (EMA) des Students. Eine bewusste Entscheidung war, keine aggressiven Farbaugmentierungen zu verwenden, um "Representation Drift" zu vermeiden, also den Verlust von Informationen über Oberflächeneigenschaften wie Hautton oder natürliche Lichtverhältnisse, was für die Albedo-Schätzung entscheidend ist.

Der riesige Trainingsdatensatz von einer Milliarde Bildern ist das Ergebnis einer mehrstufigen Filterpipeline, die ursprünglich vier Milliarden Bilder umfasste. Durch Bounding-Box-Detektion, Head-Pose-Estimation, Aesthetic- und Realism-Scoring, CLIP-basiertes Feature-Filtering und Text-Overlay-Erkennung wurde dieser auf die letztendliche Größe reduziert. Jedes ausgewählte Bild enthält mindestens eine prominente Person mit einer Mindestauflösung von 384 Pixeln. Für Diversität sorgten Methoden wie perceptual Hashing und Deep-Feature-Nearest-Neighbor-Pruning zur Deduplizierung. Anschliessend wurden visuelle Embeddings nach Posen, Kameraperspektiven, Verdeckungsgraden, Kleidungstypen und Lichtsituationen geclustert und selektiv gesampelt, ohne Task-Labels oder mensch-spezifische Priors während des Pretrainings.

Sapiens2 bietet vier Modellgrößen (0,4B, 0,8B, 1B und 5B Parameter), die nativ bei 1K-Auflösung arbeiten. Das 5B-Modell erreicht 15.722 TFLOPs und stellt damit den höchsten bislang gemeldeten FLOP-Wert für einen spezialisierten Human-Vision-Transformer dar. Für 4K-Anwendungen nutzt Sapiens2 einen hierarchischen Windowed-Attention-Ansatz, bei dem die ersten Schichten lokale Self-Attention innerhalb räumlicher Fenster anwenden, bevor ein [CLS]-gesteuertes Pooling das Token-Grid reduziert und globale Self-Attention in den letzten Schichten zum Einsatz kommt. Technologische Verbesserungen wie RMSNorm anstelle von LayerNorm, Grouped-Query Attention (GQA), QK-Norm für robustes Hochauflösungstraining und SwiGLU-Feedforward-Schichten runden die Architektur ab. Der Decoder verwendet Pixel-Shuffle-Upsampling, um detailliertere Ergebnisse und die Vermeidung von Artefakten zu gewährleisten.

Die Leistungsverbesserungen sind signifikant. Auf dem 11.000 Bilder umfassenden In-the-Wild-Pose-Testset erzielt Sapiens2-5B einen mAP-Wert von 82,3, was einem Sprung von +4 mAP gegenüber seinem Vorgänger Sapiens-2B entspricht. Bei der Körperteilsegmentierung übertrifft bereits das kleinste Modell, Sapiens2-0,4B, die vorherige Generation deutlich mit 79,5 mIoU. Sapiens2-5B erreicht hier beeindruckende 82,5 mIoU. Auch bei der Schätzung von Oberflächennormalen setzt Sapiens2 neue Maßstäbe: Sapiens2-0,4B erreicht einen mittleren Winkelfehler von 8,63°, während das 5B-Modell diesen auf 6,73° reduziert. Für die Albedo-Schätzung erreicht Sapiens2-5B einen MAE von 0,012 und einen PSNR-Wert von 32,61 dB. In der Pointmap-Estimation übertreffen alle Sapiens2-Modelle den bisherigen State-of-the-Art und selbst in Dense-Probing-Evaluierungen schlägt Sapiens2-5B den allgemeinen Backbone DINOv3-7B, obwohl dieser mehr Parameter besitzt.

❓ Häufig gestellte Fragen

▶ Welche Aufgaben übernimmt Metas neues KI-Modell Sapiens2?

Sapiens2 bewältigt gleichzeitig fünf komplexe visuelle Aufgaben rund um den menschlichen Körper, darunter Pose-Schätzung, Körperteilsegmentierung und Albedo-Bestimmung. Dabei erreicht das System eine beeindruckende Detailgenauigkeit in nativen Auflösungen von bis zu 4K.

▶ Wie unterscheidet sich Sapiens2 von seinem Vorgänger?

Während das erste Sapiens-Modell noch wenig semantisches Verständnis zeigte, nutzt Sapiens2 ein innovatives Student-Teacher-Framework, um globalen Kontext und pixelgenaue Details zu kombinieren. Zudem verlässt sich das neue Modell nicht auf aggressive Farbaugmentierung, damit wichtige Oberflächeneigenschaften wie Hauttöne exakt erhalten bleiben.

▶ Woraus besteht der riesige Trainingsdatensatz von Sapiens2?

Das Modell lernt aus einer kuratierten Datenbank von einer Milliarde hochqualitativer Bilder, die aus ursprünglich vier Milliarden Aufnahmen aufwendig gefiltert wurden. Eine komplexe Pipeline mit Bounding-Box-Detektion und Qualitätsprüfungen stellte sicher, dass auf jedem Bild mindestens eine prominente Person in hoher Vielfalt und Auflösung abgebildet ist.

✅ 12 Claims geprüft, davon 9 mehrfach verifiziert (blogs.torus.ai)

ℹ️ Wie wir prüfen →

📚 Quellen

Meta AI Releases Sapiens2: A High-Resolution Human-Centric Vision Model for Pose, Segmentation, Normals, Pointmap, and Albedo

❓ Häufig gestellte Fragen

Das könnte dich auch interessieren

GitNexus: Open-Source-Wissensgraph gibt KI-Agenten vollständige Codebase-Übersicht

YouTube „Ask YouTube": Google testet KI-Suche mit Konversations-Modus für Premium-Nutzer

AI-Deflation trifft Indiens Big Four: TCS, Infosys, Wipro und HCL unter Druck