Whisper
Was ist Whisper?
Whisper (Automatic Speech Recognition, ASR) ist ein von OpenAI entwickeltes und als Open Source veröffentlichtes Modell, das Audiodateien in maschinenlesbaren Text umwandelt. Die technische Basis ist eine klassische Transformer-Architektur, die ursprünglich aus dem NLP-Bereich stammt, aber hier auf Audiospektrogramme angewendet wird. Unterstützte Formate umfassen MP3, WAV und FLAC; die maximale Dateigröße liegt bei 200 MB.
Das Modell ist für Offline-Batch-Verarbeitung optimiert: Es verarbeitet komplette Audiodateien oder längere Segmente en bloc, anstatt einen kontinuierlichen Audiostream in Echtzeit zu analysieren. Typische Latenzzeiten bewegen sich dabei zwischen 800 und 1.200 ms – schnell genug für viele Anwendungsfälle, aber langsamer als dedizierte Streaming-Dienste. Die englischsprachige Wortfehlerrate (WER) liegt im Offline-Betrieb bei rund 4,9 % im FLEURS-Benchmark.
Wichtig: Whisper ist kein monolithisches Produkt, sondern eine Modellfamilie unterschiedlicher Größen – von kompakten Varianten für Edge-Geräte bis hin zu rechenintensiven Großmodellen, die dedizierte GPUs oder spezialisierte Hardware wie Groq LPUs voraussetzen.
Wie funktioniert Whisper?
Der Verarbeitungsprozess gliedert sich in drei Schritte. Zuerst konvertiert Whisper das Eingabeaudio in ein Mel-Spektrogramm – eine visuelle Darstellung von Frequenzen über die Zeit. Dieses Spektrogramm wird anschließend von einem Encoder in eine abstrakte Repräsentation des Audioinhalts überführt. Ein separater Decoder generiert daraus autoregressiv die Textausgabe, Token für Token.
Die multilinguale Trainingsbasis ist ein zentrales Merkmal: Whisper wurde auf einem großen, heterogenen Datensatz aus dem Internet trainiert, der Sprache aus verschiedensten Kontexten, Akzenten und Umgebungen enthält. Das erklärt die robuste Alltagstauglichkeit, aber auch die Grenzen bei sehr spezifischen Fachvokabularen oder stark verrauschten Aufnahmen.
Für Szenarien, in denen Standard-Python-Abhängigkeiten nicht infrage kommen, existiert whisper.cpp – eine reine C-Implementierung des Modells. Sie läuft auf CPUs ohne externe Bibliotheken und lässt sich via WebAssembly oder WebGPU sogar im Browser betreiben. Das macht datenschutzkonforme, vollständig clientseitige Transkription möglich.
Wofür wird Whisper eingesetzt?
- Voice Agents und KI-Workflows: In Automatisierungsplattformen wie n8n dient Whisper als STT-Eingangsschicht für Agenten-Pipelines, die nach dem ReAct-Prinzip (Reason-Act-Observe) arbeiten. In Kombination mit Sprachsynthese-Diensten wie ElevenLabs lässt sich die Gesamtlatenz von Voice-Pipelines um bis zu 40 % senken.
- Lokale und cloudfreie Transkription: Apps wie Whisper Notes nutzen das Modell on-device auf dem iPhone – keine Daten verlassen das Gerät. Für Branchen mit hohen Datenschutzanforderungen (Medizin, Recht, Finanzwesen) ist das ein entscheidender Vorteil.
- Meeting- und Interview-Transkription: Whisper verarbeitet mehrstündige Aufnahmen als Batch und liefert saubere Textprotokolle. Für eine 3-stündige Aufnahme sind auf Standard-Hardware 6–12 Stunden Rechenzeit einzuplanen; mit dedizierten Nvidia-GPUs oder Groq LPUs reduziert sich das erheblich.
- Unternehmensintegration: Microsoft hat Whisper-Technologie in Azure-Dienste und das MAI-Ökosystem integriert und setzt es als Vergleichsreferenz für das eigene MAI-Transcribe-1-Modell ein.
- Edge- und Browser-Anwendungen: Dank whisper.cpp und WebGPU-Unterstützung lässt sich Whisper direkt im Browser ohne Server-Backend betreiben – relevant für Progressive Web Apps und Offline-First-Szenarien.
Was sind Vorteile und Grenzen?
Vorteile:
- Open Source und kostenlos: Kein API-Lock-in, keine laufenden Nutzungsgebühren für selbst gehostete Instanzen.
- Robuste Alltagsgenauigkeit: ~4,9 % WER für Englisch im FLEURS-Benchmark ist für Offline-Batch-Verarbeitung kompetitiv.
- Flexible Deployment-Optionen: Von Cloud-GPU bis Browser-WASM – das Deployment-Spektrum ist ungewöhnlich breit.
- Datenschutzkonformität möglich: Vollständige On-Premise- oder On-Device-Betrieb schließt Datenweitergabe an Dritte aus.
Grenzen:
- Kein natives Echtzeit-Streaming: Die Batch-Architektur erzeugt Latenzen von 800–1.200 ms. Für Live-Voice-Anwendungen mit harter Latenzanforderung sind Alternativen wie Deepgram (<300 ms) oder Voxtral (480 ms) besser geeignet.
- Ressourcenhunger bei großen Modellen: Whisper Large benötigt dedizierte GPU-Hardware für praxistaugliche Verarbeitungsgeschwindigkeit – kein Modell für schwache Server oder Raspberry Pis ohne Optimierung.
- WER nicht immer führend: Microsofts MAI-Transcribe-1 erreicht im FLEURS-Benchmark 3,8 % WER – einen Prozentpunkt besser als Whisper – bei gleichzeitig geringerem GPU-Bedarf.
- Fachvokabular und Akzente: Wie alle auf Internetdaten trainierten Modelle hat Whisper Schwächen bei sehr spezifischem Fachjargon oder stark markierten Regionalakzenten abseits des Englischen.