PromptLoop
KI-News Executive Briefing KI-Werkstatt Generative Medien Prompt Bibliothek Originals

Latenz

Was ist Latenz?

Latenz bezeichnet die präzise messbare Zeitspanne zwischen einem Eingabereiz und der entsprechenden Systemantwort. Im KI-Kontext ist das konkret: die Zeit, die zwischen dem Absenden eines Prompts und dem Eintreffen des ersten generierten Tokens vergeht. Diese sogenannte First-Token-Latency ist besonders bei Streaming-Anwendungen die entscheidende Metrik – denn sobald das erste Token da ist, kann die Ausgabe parallel gestreamt werden, während das Modell noch rechnet. Davon zu unterscheiden ist die End-to-End-Latenz, die die gesamte Verarbeitungskette vom Input bis zur vollständigen Antwort umfasst. Verwandte Konzepte sind Throughput (wie viele Anfragen ein System pro Sekunde verarbeitet) und Inferenz (der Prozess, bei dem ein trainiertes Modell Vorhersagen generiert). Latenz ist immer eine Systemfrage – sie entsteht nicht an einem einzelnen Punkt, sondern summiert sich über Netzwerk, Hardware, Modellarchitektur und Softwarestack.

Wie funktioniert Latenz?

In einem typischen KI-Inferenz-Setup setzt sich die Gesamtlatenz aus mehreren Komponenten zusammen: Netzwerklatenz (Zeit für den Datentransport zum Server), Queuing-Zeit (Wartezeit bei hoher Auslastung), Preprocessing (Tokenisierung, Normalisierung) und schließlich die eigentliche Modell-Inferenz auf der GPU oder spezialisierter Hardware wie MLSoCs. Die Modellgröße ist dabei ein direkter Hebel: Größere Modelle brauchen mehr Berechnungsschritte pro Token, was die Latenz direkt erhöht. Optimierungstechniken wie LoRA (Low-Rank Adaptation) reduzieren die effektive Modellkomplexität und damit den Rechenaufwand – ohne die Modellqualität signifikant zu verschlechtern. Bei Automatic Speech Recognition (ASR) kommt eine weitere Dimension hinzu: Hier startet die Latenzmessung erst nach dem Ende der Spracheingabe, und Voice Activity Detection (VAD)-Systeme müssen in Echtzeit unterscheiden, ob eine Pause bedeutungstragend ist oder nur ein kurzes Zögern. Ein falsch kalibriertes VAD kann allein mehrere hundert Millisekunden unnötiger Latenz erzeugen.

Latenz in der Praxis

Im Bereich Conversational AI ist Latenz der wichtigste Qualitätsindikator nach der inhaltlichen Antwortgüte. Aktuelle Sprachmodelle zeigen hier deutliche Unterschiede: Leichtgewichtige Modelle wie Gemini Flash 1.5 liegen unter 350 ms, während schwerere Modelle der GPT-4- oder Claude-Klasse typischerweise 700–1.000 ms benötigen – ein Unterschied, der im Kundengespräch zwischen natürlichem Dialog und spürbarer Pause entscheidet. Im Bereich Real-Time Analytics definiert Latenz, ob ein System überhaupt als „Echtzeit" gelten darf: Betrugserkennung im Zahlungsverkehr oder Anomalie-Detection in Industrieanlagen erfordern Antwortzeiten im einstelligen Millisekundenbereich, da Daten sonst ihren Aktionswert verlieren, bevor das System reagiert. Eine aufstrebende, aber latenzkritische Domäne ist Quantum Machine Learning (QML): Cloud-gehostete Quanteninfrastrukturen erzeugen durch Netzwerktransport erhebliche Zusatzlatenzen, was Echtzeitanwendungen auf Quantenbasis derzeit noch strukturell limitiert.

Vorteile und Grenzen

Niedrige Latenz ist kein Nice-to-have, sondern ein Produktmerkmal mit direktem Einfluss auf Conversion, Nutzerbindung und Sicherheit in kritischen Systemen. Optimierungen durch spezialisierte Inferenz-Hardware, Modell-Quantisierung und Techniken wie LoRA ermöglichen es, auch große Modelle auf praxistaugliche Antwortzeiten zu trimmen. Die Grenzen liegen in fundamentalen physikalischen und ökonomischen Realitäten: Lichtgeschwindigkeit setzt der Netzwerklatenz eine harte Untergrenze – ein Rechenzentrum in Frankfurt wird für einen Nutzer in Sydney immer langsamer sein als ein lokales Edge-Deployment. Zudem erzeugt aggressive Latenzoptimierung oft Trade-offs: Kleinere, schnellere Modelle produzieren tendenziell schlechtere Outputs. Quantisierung kann Modellverhalten an Randfällen verändern. Und Edge-Deployments erhöhen die Infrastrukturkomplexität erheblich. Latenz ist damit kein technisches Problem, das man einmal löst – sondern ein kontinuierlicher Balanceakt zwischen Geschwindigkeit, Qualität und Kosten.

❓ Häufig gestellte Fragen

Was ist ein guter Latenz-Wert für KI-Sprachsysteme?
Für Conversational AI gilt unter 350 ms als Grenzwert für natürlich wirkende Dialoge. Leichtgewichtige Modelle wie Gemini Flash 1.5 erreichen das, schwerere Modelle liegen oft bei 700–1.000 ms.
Wie lässt sich Latenz in KI-Systemen reduzieren?
Die wichtigsten Hebel sind: Modelloptimierung durch Techniken wie LoRA oder Quantisierung, spezialisierte Inferenz-Hardware (GPUs, MLSoCs), Edge-Deployment nahe beim Nutzer sowie effizientes Streaming ab dem ersten generierten Token.
Was ist der Unterschied zwischen Latenz und Throughput?
Latenz misst die Zeit für eine einzelne Anfrage von Input bis Output. Throughput beschreibt, wie viele Anfragen ein System pro Zeiteinheit verarbeiten kann. Beide Metriken stehen oft in einem Trade-off: Systeme, die auf hohen Throughput optimiert sind, bündeln Anfragen – was die Latenz einzelner Requests erhöht.
📬 KI-News direkt ins Postfach