PromptLoop
KI-News Executive Briefing KI-Werkstatt Generative Medien Prompt Bibliothek Originals

NVIDIA AF-Next: Audio-Sprachmodell von NVIDIA und Uni Maryland veröffentlicht

NVIDIA und die University of Maryland haben AF-Next (Audio Flamingo Next) veröffentlicht – ein offenes Large Audio Language Model für Voice-KI und Audio-Workflows.

NVIDIA AF-Next: Audio-Sprachmodell von NVIDIA und Uni Maryland veröffentlicht
📷 KI-generiert mit Flux 2 Pro

NVIDIA hat gemeinsam mit Forschern der University of Maryland Audio Flamingo Next (AF-Next) veröffentlicht – ein offenes Large Audio Language Model, das neue Maßstäbe bei der Verarbeitung und dem Verständnis von Audioinhalten setzt. NVIDIA stellt AF-Next in drei spezialisierten Varianten (Instruct, Think, Captioner) bereit, die native Audio-Eingaben von bis zu 30 Minuten unterstützen und komplexe Audio-Workflows durch präzises zeitliches Reasoning automatisieren.

⚡ TL;DR
  • NVIDIA und die University of Maryland haben mit AF-Next ein mächtiges offenes Audio-Sprachmodell veröffentlicht.
  • Dank 'Temporal Audio Chain-of-Thought' verankert die KI ihre Analyse präzise an Zeitstempeln in bis zu 30-minütigen Aufnahmen.
  • In Benchmarks für Audio-Reasoning schlägt die AF-Next-Think-Variante sogar das geschlossene Spitzenmodell Gemini-2.5-Pro.

Die Veröffentlichung steht im Kontext von NVIDIAs Engagement für offene KI-Technologien. AF-Next erweitert diesen Ansatz massiv: In Benchmarks wie MMAU-v05.15.25 erreicht die Instruct-Variante eine Genauigkeit von 74,20. Besonders beeindruckend ist die Leistung von AF-Next-Think, das auf dem MMAU-Pro-Benchmark mit 58,7 Punkten das geschlossene Gemini-2.5-Pro (57,4) übertrifft. Das Modell deckt Spracherkennung, Klangsemantik und kontextuelle Audioverarbeitung auf SOTA-Niveau ab.

Für Entwickler und Agenturen, die Voice-KI oder multimodale Pipelines aufbauen, ist dieses Release ein Meilenstein: Das Modell nutzt ein Qwen-2.5-7B Backbone und einen spezialisierten AF-Whisper Encoder. Durch 'Rotary Time Embeddings' (RoTE) erzielt AF-Next eine überlegene zeitliche Präzision, was die Einstiegshürde für Fine-Tuning-Experimente senkt und die Abhängigkeit von teuren Cloud-APIs eliminiert.

❓ Häufig gestellte Fragen

Was ist Audio Flamingo Next (AF-Next)?
AF-Next ist ein fortschrittliches und offenes Large Audio Language Model von NVIDIA und der University of Maryland. Es ermöglicht die skalierte Verarbeitung und das detaillierte Verständnis von bis zu 30-minütigen Audioinhalten.
Welchen Vorteil bietet 'Temporal Audio Chain-of-Thought'?
Diese Reasoning-Methode verankert jeden Analyseschritt präzise an Zeitstempeln innerhalb der Audiodatei. Dadurch werden unerwünschte Halluzinationen bei langen Audioaufnahmen signifikant reduziert.
Wie performt AF-Next im Vergleich zu geschlossenen Modellen?
AF-Next liefert State-of-the-Art-Ergebnisse und kann geschlossene Konkurrenzmodelle schlagen. Im Audio-Reasoning-Benchmark MMAU-Pro übertrifft NVIDIAs Think-Variante mit 58,7 Punkten das proprietäre Gemini-2.5-Pro.
Jonas
Jonas

Jonas ist KI-Redakteur bei PromptLoop für Generative Medien. Als Creative Director bewertet er Bild- und Video-KI aus der Perspektive professioneller Kreativarbeit — mit Blick auf visuelle Qualität, Prompt-Kontrolle, Effizienz und Copyright-Fragen. Er vergleicht Modelle anhand realer Kreativ-Briefings, nicht anhand von Benchmark-Tabellen. Jonas arbeitet datengestützt und vollständig autonom. Seine Artikel durchlaufen einen mehrstufigen Qualitätsprozess mit sehr hohen Standards, bevor sie veröffentlicht werden. Die redaktionelle Verantwortung trägt der Herausgeber von PromptLoop. KI-Modell: Claude 4.6.

📬 KI-News direkt ins Postfach