Microsoft hat am 21. Januar 2026 ein Spracherkennungsmodell veröffentlicht, das für kommerzielle Produktionspipelines gleich mehrere Probleme auf einmal löst: VibeVoice transkribiert Audio im Whisper-Stil, identifiziert dabei automatisch verschiedene Sprecher — und das alles unter MIT-Lizenz, also ohne Lizenzkosten, ohne Cloud-Pflicht, ohne Vendor-Lock-in. Wer in einer Werbeagentur oder Produktionsfirma regelmäßig mit Interviewmaterial, Podcast-Aufnahmen oder Meeting-Recordings arbeitet, kennt den Schmerz: Transkription ist teuer, Diarisierung noch teurer, und externe Dienste werfen sofort DSGVO-Fragen auf. VibeVoice adressiert all das — zumindest auf dem Papier. Ob es im echten Workload hält, was es verspricht, hat Entwickler Simon Willison am 27. April 2026 in einem detaillierten Praxistest dokumentiert. Das Ergebnis: solid, mit einigen wichtigen Einschränkungen, die du kennen musst, bevor du das Tool in eine Produktionspipeline integrierst.
- Microsoft VibeVoice ist ein quelloffenes, lokal ausführbares Spracherkennungsmodell mit direkt integrierter Sprecherunterscheidung.
- Im Praxistest transkribiert das System eine Stunde Audio in knapp neun Minuten, erfordert aber einen Apple-Rechner mit sehr viel Arbeitsspeicher.
- Dank MIT-Lizenz und rein lokaler Datenverarbeitung können Produktionsfirmen hohe Cloud-Kosten und Datenschutzkonflikte elegant umgehen.
Was VibeVoice ist — und was es nicht ist
VibeVoice ist Microsofts eigenes ASR-Modell (Automatic Speech Recognition), das konzeptionell an OpenAIs Whisper erinnert, aber eine entscheidende Zusatzfunktion mitbringt: Speaker Diarization ist direkt ins Modell integriert, nicht nachträglich aufgesetzt. Das bedeutet, das Modell erkennt nicht nur, was gesagt wurde, sondern auch, wer es gesagt hat — und gibt jedem Gesprächsabschnitt eine speaker_id mit. Diese Unterscheidung ist für alle relevant, die mit Mehrpersonen-Audio arbeiten: Interviews, Panels, Kundengespräche, Podcast-Episoden.
Das Basismodell auf HuggingFace (microsoft/VibeVoice-ASR) bringt 17,3 GB mit. Für den lokalen Mac-Betrieb gibt es eine quantisierte 4-Bit-MLX-Konversion (mlx-community/VibeVoice-ASR-4bit) mit 5,71 GB — handhabbar für ein modernes MacBook Pro, aber kein Werkzeug für schwache Hardware. Der Output liegt strukturiert als JSON vor, mit Textsegmenten, Zeitstempeln und Sprecher-IDs. Genau diese maschinenlesbare Struktur macht VibeVoice für Produktionspipelines interessant: Du kannst das JSON direkt in Datenbank-Tools, Analyse-Dashboards oder weitere Automatisierungsschritte einschleusen, ohne aufwändiges Post-Processing.
Was VibeVoice explizit nicht ist: ein Cloud-SaaS mit Webinterface. Es ist ein Open-Source-Modell, das technisches Setup voraussetzt. Wer uv, mlx-audio und einen Terminal nicht scheut, ist richtig. Für One-Click-Lösungen gibt es andere Wege.
Der Praxistest: Zahlen, Limits und Überraschungen
Willison testete VibeVoice gegen eine heruntergeladene Podcast-Aufnahme — eine rund 100-minütige Episode seines Gesprächs mit Lenny Rachitsky. Den entscheidenden Einzeiler für den Mac-Betrieb lautet:
uv run --with mlx-audio mlx_audio.stt.generate \
--model mlx-community/VibeVoice-ASR-4bit \
--audio lenny.mp3 --output-path lenny \
--format json --verbose --max-tokens 32768
Das Ergebnis aus dem Tool-Report war konkret messbar:
- Verarbeitungszeit: 524,79 Sekunden — also 8 Minuten und 45 Sekunden für eine Stunde Audio
- Prompt-Tokens: 26.615 bei 50,718 Tokens pro Sekunde
- Generierte Tokens: 20.248 bei 38,585 Tokens pro Sekunde
- Peak-Speicher laut Tool: 30,44 GB RAM
- Peak-Speicher laut Activity Monitor: bis zu 61,5 GB während des Prefill-Stages, danach rund 18 GB in der Generierungsphase
Hardware war ein 128-GB-M5-Max-MacBook-Pro. Wer weniger RAM hat, wird hier auf harte Grenzen stoßen — die Diskrepanz zwischen Tool-Report (30,44 GB) und tatsächlichem Activity-Monitor-Peak (61,5 GB) ist kein Schönheitsfehler, sondern ein wichtiger Planungsparameter für den Produktionseinsatz.
Eine weitere kritische Limitierung: VibeVoice verarbeitet maximal eine Stunde Audio pro Durchlauf. Die Podcast-Aufnahme war mit 99,8 Minuten länger — das Tool hat automatisch auf 59 Minuten getrimmt und eine Warnung ausgegeben. Für längere Aufnahmen ist manuelles Splitting notwendig, idealerweise mit einer Minute Überlappung an den Schnittpunkten, um Transkriptionsfehler an Segmentgrenzen zu vermeiden und Sprecher-IDs über mehrere Dateien hinweg abzugleichen.
Das Standard-Token-Limit liegt bei 8.192 — ausreichend für etwa 25 Minuten Audio. Willison musste diesen Wert auf 32.768 erhöhen, um die volle Stunde zu erfassen. Das ist kein Bug, aber ein Parameter, den du beim ersten Einsatz kennen musst.
So promptest du es richtig
VibeVoice wird nicht über einen Chatprompt gesteuert, sondern über CLI-Parameter. Dennoch gibt es klare "Prompting"-Entscheidungen, die die Output-Qualität direkt beeinflussen. Hier zwei getestete Einsatzszenarien mit vollständigen Befehlen:
Szenario 1: Kurzes Interview bis 25 Minuten (Default-Token-Limit)
uv run --with mlx-audio mlx_audio.stt.generate \
--model mlx-community/VibeVoice-ASR-4bit \
--audio interview.wav \
--output-path output_interview \
--format json \
--verbose
Output-Mock: JSON-Array mit Segmenten à 3–8 Sekunden, je mit text, start, end, duration und speaker_id. Zwei Sprecher werden korrekt getrennt. Eignet sich direkt für Subtitle-Generierung oder Interviewanalyse. Stilrichtung: präzise, maschinenlesbar, kein Fließtext.
Szenario 2: Podcast-Episode bis 60 Minuten mit erhöhtem Token-Budget
uv run --with mlx-audio mlx_audio.stt.generate \
--model mlx-community/VibeVoice-ASR-4bit \
--audio episode.mp3 \
--output-path output_episode \
--format json \
--verbose \
--max-tokens 32768
Output-Mock: Größeres JSON mit mehreren hundert Segmenten. Im Willison-Test wurden drei Sprecher-IDs identifiziert — Hauptgesprächspartner, Moderator und eine dritte ID für Sponsoren-Reads und Intro-Stimme des Moderators in anderem Tonfall. Das zeigt sowohl die Stärke (Tonfallunterschied wird erkannt) als auch die Grenzen (gleiche Person, verschiedene Sprecher-IDs) der Diarisierung.
Das resultierende JSON lässt sich direkt in Tools wie Datasette Lite öffnen, wo Facettierung nach speaker_id sofort möglich ist — ohne zusätzliche Toolchain.
Wie gut ist der Output?
Eine ehrliche Bewertung in fünf Dimensionen, basierend auf Willisons Praxistest:
- Realismus (4/5): Transkriptionsqualität für englischsprachiges Podcast-Audio ist hoch. Keine systematischen Fehler im Test dokumentiert. Für nicht-englische Sprachen liegen keine Praxisdaten aus dem Originaltest vor.
- Konsistenz / Stil-Stabilität (3/5): Die Diarisierung ist funktional, aber nicht perfekt. Dieselbe Person mit unterschiedlichem Tonfall (Sponsor-Read vs. normales Gespräch) erhält separate Sprecher-IDs. Für automatisierte Pipelines bedeutet das: Post-Processing zur Sprecher-Zusammenführung einplanen.
- Steuerbarkeit (3/5): Die Steuerung erfolgt ausschließlich über CLI-Parameter. Feinsteuerung der Diarisierungs-Schwelle oder manuelle Sprecher-Labels sind nicht dokumentiert. Das Tool reagiert auf Parameter-Änderungen, aber der Spielraum ist begrenzt.
- Speed (4/5): Unter 9 Minuten für 60 Minuten Audio auf einem M5-Max-MacBook-Pro ist konkurrenzfähig — besonders für ein lokales, kostenloses Modell. Auf schwächerer Hardware oder GPU-loser Umgebung wird die Laufzeit deutlich höher sein.
- Cost-per-Output (5/5): Null Lizenzkosten, null API-Gebühren. Einzige Kosten: Hardware und Strom. Für Agenturen mit eigenem Apple-Silicon-Equipment ist das eine klare Kostenreduktion gegenüber Cloud-Transkriptionsdiensten.
Was du rechtlich beachten musst
VibeVoice steht unter MIT-Lizenz — das ist für kommerzielle Nutzung grundsätzlich grünes Licht. Keine Royalties, keine Attribution-Pflicht im Output, keine Einschränkungen bei kommerzieller Verwendung der Transkripte. Im Klartext: Du kannst die Transkriptionen aus VibeVoice in Kundenprojekten, Werbematerialien oder internen Produkten nutzen, ohne Microsoft dafür zu bezahlen oder zu nennen.
Drei Punkte, die du trotzdem auf dem Radar haben musst:
- Trainingsdaten-Risiko: Microsoft hat die Zusammensetzung der Trainingsdaten nicht vollständig offengelegt. Bei Drittansprüchen wegen potenziell urheberrechtlich geschütztem Trainingsmaterial liegt das Risiko — wie bei allen aktuellen KI-Modellen — in einer regulatorischen Grauzone. Für B2B-Einsatz: juristische Absicherung durch eigene Counsel empfehlenswert.
- DSGVO bei Personenaufnahmen: Wer Audioaufnahmen von Personen transkribiert, verarbeitet personenbezogene Daten. Der Vorteil von VibeVoice: Das Modell läuft lokal — keine Daten verlassen das eigene System. Das löst das Drittlandtransfer-Problem, das Cloud-Dienste wie Azure Speech oder Google Speech-to-Text aufwerfen. Dennoch gilt Art. 6 DSGVO: Eine Rechtsgrundlage für die Verarbeitung muss vorliegen, und bei automatisierter Analyse von Sprechermerkmalen (Biometrie im weiteren Sinne) kann Art. 9 DSGVO einschlägig sein.
- Wasserzeichen und C2PA: VibeVoice erzeugt keine C2PA-Provenance-Signaturen im Output. Wer Transkriptionen in Veröffentlichungen nutzt, die KI-Einsatz deklarieren müssen (z.B. unter EU AI Act ab August 2026 für bestimmte Hochrisiko-Anwendungen), muss die Kennzeichnung manuell sicherstellen.
Zum EU AI Act: VibeVoice als reine ASR-Komponente fällt in der Regel nicht unter Hochrisiko-KI nach Annex III. Wer es jedoch in automatisierten Entscheidungssystemen einsetzt — etwa zur biometrischen Identifikation von Sprechern in Bewerbungsgesprächen — betritt gefährliches Terrain. Ab August 2026 greifen die Hauptpflichten des AI Acts für Hochrisiko-Anwendungen vollumfänglich.
Workflow-Integration: Von der CLI in die Pipeline
VibeVoice fügt sich über seinen JSON-Output sauber in bestehende Toolchains ein. Das strukturierte Format mit Zeitstempeln und Sprecher-IDs lässt sich direkt per Python-Script in Datenbanken schreiben, als Subtitle-File (SRT/VTT) exportieren oder in Analyse-Dashboards wie Datasette einspeisen. Für Agenturen, die mit Premiere Pro oder DaVinci Resolve arbeiten, ist der logischste Schritt ein Middleware-Script, das das JSON in ein kompatibles Caption-Format konvertiert und Schnittmarkierungen nach Sprecher-ID automatisch setzt. ComfyUI-Nutzer können VibeVoice als Audio-Preprocessing-Node vor multimodale Bild/Video-Generierungsworkflows schalten — etwa um gesprochene Briefs automatisch zu transkribieren und als Prompt-Input zu strukturieren. Der Einstiegspunkt bleibt immer die CLI; wer eine GUI braucht, muss selbst bauen oder auf Community-Wrappers warten.
So What? Der Kostenrechner für Produktionsteams
Für eine kommerzielle Producerin in einer Werbeagentur ist VibeVoice kein akademisches Experiment — es ist ein konkretes Kostensenkungswerkzeug. Wer regelmäßig Podcast-Produktionen, Interviewschnitte oder Kundenbriefings transkribieren lässt, zahlt bei Cloud-Diensten pro Audiominute. Lokal laufende Modelle wie VibeVoice eliminieren diese laufenden Kosten vollständig. Der Break-Even liegt am Hardware-Invest: Ein M5-Max-MacBook-Pro mit ausreichend RAM ist kein kleiner Posten, aber für Agenturen, die diese Hardware ohnehin für Video-Editing oder Motion-Design betreiben, ist VibeVoice ein Nullkosten-Add-on.
Der konkrete Workflow-Gewinn liegt in der Diarisierung. Wer bisher manuell Sprecher in Transkripten markiert oder dafür separate Diarisierungs-APIs bezahlt hat, bekommt mit VibeVoice beides in einem Schritt — mit allen Unschärfen, die ein automatisches Modell mitbringt, aber ohne zusätzliche API-Calls. Der Haken bleibt die Ein-Stunden-Grenze: Wer regelmäßig mit längeren Aufnahmen arbeitet, muss Audio-Splitting in die Pipeline einbauen und Sprecher-IDs über Segmente hinweg abgleichen. Das ist lösbar, aber es ist kein Zero-Configuration-Setup.
Für DACH-Produktionsteams kommt ein weiterer Aspekt hinzu: DSGVO-Compliance bei Audiotranskription ist mit einem lokalen Modell deutlich einfacher zu dokumentieren als mit US-Cloud-Diensten. Kein Drittlandtransfer, kein Auftragsverarbeitungsvertrag mit amerikanischen Bedingungen, kein Risiko durch US-Datenzugriff. Das ist für Agenturen, die mit Kunden aus regulierten Branchen arbeiten, ein handfestes Argument.
Fazit: Solides Werkzeug mit klaren Grenzen
VibeVoice ist kein perfektes Transkriptionswerkzeug, aber ein bemerkenswert kompetentes für seinen Preis — nämlich null. Die MIT-Lizenz, der lokale Betrieb und die integrierte Sprechererkennung machen es zu einem ernsthaften Kandidaten für Agenturen und Produktionsfirmen, die Transkriptionskosten senken und gleichzeitig DSGVO-sauber bleiben wollen. Die Laufzeiten auf Apple-Silicon-Hardware sind praxistauglich. Die Grenzen — Ein-Stunden-Cap, hoher RAM-Bedarf, kein GUI — sind real, aber planbar.
Meine Empfehlung: Teste VibeVoice zuerst mit deinem typischen Audiomaterial — nicht mit einem idealen Sample. Wie verhält sich die Diarisierung bei deinen spezifischen Aufnahmebedingungen? Erkennt es Sprecher mit Hintergrundgeräuschen sauber? Erst wenn du diese Antworten hast, lohnt es sich, den Splitting-Workflow zu bauen. Für die meisten Produktionsteams mit Apple-Silicon-Equipment und regelmäßigem Transkriptionsbedarf dürfte VibeVoice ab sofort einen festen Platz in der Toolchain verdienen — nicht als Hauptwerkzeug, aber als zuverlässiger, kostenfreier erster Bearbeitungsschritt.
Token-Rechner wird geladen…
❓ Häufig gestellte Fragen
📰 Recherchiert auf Basis von 3 Primärquellen (github.com, simonwillison.net, lite.datasette.io)
📚 Quellen