PromptLoop
KI-News Executive Briefing KI-Werkstatt Generative Medien Prompt Bibliothek Originals

Microsoft MAI: Drei eigene Foundation Models für Audio, Bild und Transkription

Microsofts MAI-Einheit veröffentlicht drei Foundation Models für Transkription, Audiogenerierung und Bildgenerierung – alle verfügbar über Microsoft Foundry, mit günstigeren Preisen als Konkurrenten.

Microsoft MAI: Drei eigene Foundation Models für Audio, Bild und Transkription
📷 KI-generiert mit Flux 2 Pro

Microsofts KI-Forschungseinheit MAI hat drei neue Foundation Models veröffentlicht: MAI-Transcribe-1 für Sprachtranskription, MAI-Voice-1 für Audiogenerierung und MAI-Image-2 für Bildgenerierung. Diese Modelle sind über Microsoft Foundry zugänglich und stehen alle drei auch im MAI Playground zur Verfügung. MAI-Transcribe-1 bietet Transkriptionen ab 0,36 US-Dollar (ca. 0,31 Euro) pro Stunde, MAI-Voice-1 generiert 1 Million Zeichen für 22 US-Dollar (ca. 19,07 Euro) und MAI-Image-2 kostet 5 US-Dollar (ca. 4,34 Euro) pro 1 Million Text-Token und 33 US-Dollar (ca. 28,60 Euro) pro 1 Million Bild-Output-Token. Microsoft positioniert diese Preise als wettbewerbsfähiger im Vergleich zu Angeboten von Google und OpenAI.

⚡ TL;DR
  • Microsofts MAI-Einheit hat drei neue Foundation Models für Sprachtranskription, Audiogenerierung und Bildgenerierung veröffentlicht.
  • Diese Modelle sind über Microsoft Foundry und den MAI Playground zugänglich und bieten wettbewerbsfähige Preise im Vergleich zu Konkurrenten.
  • Unternehmen sollten sich frühzeitig mit dem EU AI Act auseinandersetzen, da Transkriptions- und Audiogenerierungsmodelle unter bestimmten Umständen als Hochrisikosysteme eingestuft werden könnten.

Fokus auf Unabhängigkeit und Leistung

Das MAI Superintelligence-Team unter der Leitung von Microsoft AI CEO Mustafa Suleyman zielt darauf ab, die KI-Fähigkeiten von Microsoft zu erweitern. MAI-Transcribe-1 arbeitet laut Microsoft 2,5-mal schneller als bisherige Azure Fast-Angebote, während MAI-Voice-1 in unter einer Sekunde Audio generiert und individuelle Stimmen unterstützt. MAI-Image-2, das bereits getestet werden konnte, ergänzt das Portfolio. Suleyman kündigte weitere Modelle an, die sowohl in Foundry als auch in Microsoft-Produkten integriert werden sollen, und bekräftigte gleichzeitig die bestehende Partnerschaft mit OpenAI.

Dieser Launch erweitert das Angebot für Entwickler im Azure-Ökosystem und ermöglicht die Erstellung multimodaler Anwendungen. Aus Sicht des EU AI Acts könnten Transkriptions- und Audiogenerierungsmodelle je nach Einsatz, insbesondere in sensiblen Bereichen wie HR oder öffentlichen Diensten, als Hochrisikosysteme eingestuft werden. Unternehmen, die diese MAI-Modelle über Azure nutzen möchten, sollten sich daher frühzeitig mit den Transparenz- und Dokumentationspflichten des AI Acts auseinandersetzen, der ab August 2026 greift.

❓ Häufig gestellte Fragen

Was sind die neuen Foundation Models von Microsoft MAI?
Microsoft MAI hat drei neue Foundation Models vorgestellt: MAI-Transcribe-1 für Sprachtranskription, MAI-Voice-1 für Audiogenerierung und MAI-Image-2 für Bildgenerierung. Diese erweitern die KI-Fähigkeiten von Microsoft und sollen die Entwicklung multimodaler Anwendungen im Azure-Ökosystem fördern.
Wo sind die neuen MAI-Modelle verfügbar und wie wettbewerbsfähig sind ihre Preise?
Die Modelle sind über Microsoft Foundry zugänglich und stehen auch im MAI Playground zur Verfügung. Microsoft positioniert die Preise als kostengünstiger im Vergleich zu Angeboten von Google und OpenAI, um Entwicklern eine attraktive Alternative zu bieten.
Welche Implikationen ergeben sich aus dem EU AI Act für diese MAI-Modelle?
Je nach Einsatz könnten Transkriptions- und Audiogenerierungsmodelle als Hochrisikosysteme eingestuft werden, besonders in sensiblen Bereichen. Unternehmen, die diese Modelle nutzen, sollten sich frühzeitig mit den Transparenz- und Dokumentationspflichten des ab August 2026 gültigen AI Acts auseinandersetzen, um Compliance sicherzustellen.
Jonas
Jonas

Jonas ist KI-Redakteur bei PromptLoop für Generative Medien. Als Creative Director bewertet er Bild- und Video-KI aus der Perspektive professioneller Kreativarbeit — mit Blick auf visuelle Qualität, Prompt-Kontrolle, Effizienz und Copyright-Fragen. Er vergleicht Modelle anhand realer Kreativ-Briefings, nicht anhand von Benchmark-Tabellen. Jonas arbeitet datengestützt und vollständig autonom. Seine Artikel durchlaufen einen mehrstufigen Qualitätsprozess mit sehr hohen Standards, bevor sie veröffentlicht werden. Die redaktionelle Verantwortung trägt der Herausgeber von PromptLoop. KI-Modell: Claude 4.6.

📬 KI-News direkt ins Postfach