Google hat mit Gemini 3.1 Flash Live ein neues, auf Echtzeit-Audio spezialisiertes KI-Modell vorgestellt, das die Präzision beim Function Calling erheblich verbessert und nun 90,8 Prozent im ComplexFuncBench für Audio erreicht. Dies stellt einen signifikanten Fortschritt gegenüber dem Vorgängermodell dar und positioniert das neue Modell als vielversprechende Preview für die Integration in Backend-Systeme per Audio, trotz nach wie vor bestehender Herausforderungen bei der Erkennung von Unterbrechungen in Gesprächen. Das Modell ist bereits in Google AI Studio, der Gemini API und Gemini Enterprise sowie in Gemini Live und Search Live verfügbar.
- Google hat Gemini 3.1 Flash Live als KI-Modell für Echtzeit-Audio mit 90,8 % Function-Calling-Präzision vorgestellt.
- Das Modell ist bereits in wichtigen Google-Diensten verfügbar und verbessert die Verarbeitung akustischer Nuancen, um Unterbrechungen in Gesprächen robuster zu handhaben.
- Google integriert SynthID-Wasserzeichen zur Kennzeichnung von KI-generierten Inhalten, was im Kontext des EU AI Act an Bedeutung gewinnt.
Die Fähigkeit, akustische Nuancen wie Tonhöhe und Sprechgeschwindigkeit zu verarbeiten, macht Gemini 3.1 Flash Live robuster im Umgang mit Gesprächsunterbrechungen, wenn auch hier noch Verbesserungspotenzial besteht, um die Leistung nicht-konversationeller Audiomodelle zu erreichen. Google integriert zudem SynthID-Wasserzeichen, um KI-generierte Inhalte maschinell detektierbar zu machen. Unternehmen, insbesondere in der EU, müssen bei der Nutzung des Modells die Bestimmungen des EU AI Act beachten, die eine Kennzeichnungspflicht für KI-generierte Inhalte und Transparenz gegenüber Endnutzern vorschreiben.
❓ Häufig gestellte Fragen
📚 Quellen