NVIDIA hat gemeinsam mit Forschern der University of Maryland Audio Flamingo Next (AF-Next) veröffentlicht – ein offenes Large Audio Language Model, das neue Maßstäbe bei der Verarbeitung und dem Verständnis von Audioinhalten setzt. NVIDIA stellt AF-Next in drei spezialisierten Varianten (Instruct, Think, Captioner) bereit, die native Audio-Eingaben von bis zu 30 Minuten unterstützen und komplexe Audio-Workflows durch präzises zeitliches Reasoning automatisieren.
- NVIDIA und die University of Maryland haben mit AF-Next ein mächtiges offenes Audio-Sprachmodell veröffentlicht.
- Dank 'Temporal Audio Chain-of-Thought' verankert die KI ihre Analyse präzise an Zeitstempeln in bis zu 30-minütigen Aufnahmen.
- In Benchmarks für Audio-Reasoning schlägt die AF-Next-Think-Variante sogar das geschlossene Spitzenmodell Gemini-2.5-Pro.
Die Veröffentlichung steht im Kontext von NVIDIAs Engagement für offene KI-Technologien. AF-Next erweitert diesen Ansatz massiv: In Benchmarks wie MMAU-v05.15.25 erreicht die Instruct-Variante eine Genauigkeit von 74,20. Besonders beeindruckend ist die Leistung von AF-Next-Think, das auf dem MMAU-Pro-Benchmark mit 58,7 Punkten das geschlossene Gemini-2.5-Pro (57,4) übertrifft. Das Modell deckt Spracherkennung, Klangsemantik und kontextuelle Audioverarbeitung auf SOTA-Niveau ab.
Für Entwickler und Agenturen, die Voice-KI oder multimodale Pipelines aufbauen, ist dieses Release ein Meilenstein: Das Modell nutzt ein Qwen-2.5-7B Backbone und einen spezialisierten AF-Whisper Encoder. Durch 'Rotary Time Embeddings' (RoTE) erzielt AF-Next eine überlegene zeitliche Präzision, was die Einstiegshürde für Fine-Tuning-Experimente senkt und die Abhängigkeit von teuren Cloud-APIs eliminiert.