NVIDIA AF-Next: Audio-Sprachmodell von NVIDIA…

NVIDIA AF-Next: Audio-Sprachmodell von NVIDIA und Uni Maryland veröffentlicht

NVIDIA und die University of Maryland haben AF-Next (Audio Flamingo Next) veröffentlicht – ein offenes Large Audio Language Model für Voice-KI und Audio-Workflows.

Jonas

15. April 2026, 02:00 Uhr ·2 Min. Lesezeit

NVIDIA hat gemeinsam mit Forschern der University of Maryland Audio Flamingo Next (AF-Next) veröffentlicht – ein offenes Large Audio Language Model, das neue Maßstäbe bei der Verarbeitung und dem Verständnis von Audioinhalten setzt. NVIDIA stellt AF-Next in drei spezialisierten Varianten (Instruct, Think, Captioner) bereit, die native Audio-Eingaben von bis zu 30 Minuten unterstützen und komplexe Audio-Workflows durch präzises zeitliches Reasoning automatisieren.

⚡ TL;DR

NVIDIA und die University of Maryland haben mit AF-Next ein mächtiges offenes Audio-Sprachmodell veröffentlicht.
Dank 'Temporal Audio Chain-of-Thought' verankert die KI ihre Analyse präzise an Zeitstempeln in bis zu 30-minütigen Aufnahmen.
In Benchmarks für Audio-Reasoning schlägt die AF-Next-Think-Variante sogar das geschlossene Spitzenmodell Gemini-2.5-Pro.

Die Veröffentlichung steht im Kontext von NVIDIAs Engagement für offene KI-Technologien. AF-Next erweitert diesen Ansatz massiv: In Benchmarks wie MMAU-v05.15.25 erreicht die Instruct-Variante eine Genauigkeit von 74,20. Besonders beeindruckend ist die Leistung von AF-Next-Think, das auf dem MMAU-Pro-Benchmark mit 58,7 Punkten das geschlossene Gemini-2.5-Pro (57,4) übertrifft. Das Modell deckt Spracherkennung, Klangsemantik und kontextuelle Audioverarbeitung auf SOTA-Niveau ab.

Für Entwickler und Agenturen, die Voice-KI oder multimodale Pipelines aufbauen, ist dieses Release ein Meilenstein: Das Modell nutzt ein Qwen-2.5-7B Backbone und einen spezialisierten AF-Whisper Encoder. Durch 'Rotary Time Embeddings' (RoTE) erzielt AF-Next eine überlegene zeitliche Präzision, was die Einstiegshürde für Fine-Tuning-Experimente senkt und die Abhängigkeit von teuren Cloud-APIs eliminiert.

❓ Häufig gestellte Fragen

▶ Was ist Audio Flamingo Next (AF-Next)?

AF-Next ist ein fortschrittliches und offenes Large Audio Language Model von NVIDIA und der University of Maryland. Es ermöglicht die skalierte Verarbeitung und das detaillierte Verständnis von bis zu 30-minütigen Audioinhalten.

▶ Welchen Vorteil bietet 'Temporal Audio Chain-of-Thought'?

Diese Reasoning-Methode verankert jeden Analyseschritt präzise an Zeitstempeln innerhalb der Audiodatei. Dadurch werden unerwünschte Halluzinationen bei langen Audioaufnahmen signifikant reduziert.

▶ Wie performt AF-Next im Vergleich zu geschlossenen Modellen?

AF-Next liefert State-of-the-Art-Ergebnisse und kann geschlossene Konkurrenzmodelle schlagen. Im Audio-Reasoning-Benchmark MMAU-Pro übertrifft NVIDIAs Think-Variante mit 58,7 Punkten das proprietäre Gemini-2.5-Pro.

📚 Quellen

❓ Häufig gestellte Fragen

Das könnte dich auch interessieren

NewBird AI: Allbirds verkauft Schuhmarke für 39 Mio. Dollar und pivotiert zu GPU-Cloud

Apple vs. xAI: Grok drohte App-Store-Rauswurf wegen Deepfake-Inhalten

Cloudflare Mesh: Privates Netzwerk für KI-Agenten ersetzt manuelle Tunnels