Inferenz — PromptLoop Glossar

Was ist eine Inferenz?

Inferenz bezeichnet im KI-Kontext den Betriebsmodus eines trainierten Machine-Learning-Modells: Es nimmt unbekannte Eingabedaten entgegen und erzeugt daraus eine Ausgabe – sei es ein Text, eine Klassifikation oder eine Entscheidung. Der entscheidende Punkt: Die Modellparameter bleiben dabei eingefroren. Das Modell lernt nichts Neues, es wendet Gelerntes an. Das unterscheidet Inferenz fundamental vom Training, bei dem das Modell durch Backpropagation iterativ seine Gewichte anpasst. Ein drittes Konzept, das oft verwechselt wird: Fine-Tuning – das ist immer noch ein Lernvorgang und damit kein Teil der Inferenz, auch wenn es nach dem initialen Training stattfindet.

Wie funktioniert Inferenz?

Bei einem Large Language Model (LLM) läuft Inferenz als sogenannter Forward Pass ab: Dein Prompt wird zunächst tokenisiert, also in numerische Einheiten zerlegt. Diese Token durchlaufen dann sequenziell die Transformer-Schichten des Modells, wo Attention-Mechanismen Beziehungen zwischen Token berechnen. Am Ende jeder Vorhersage steht eine Wahrscheinlichkeitsverteilung über mögliche nächste Token – per Greedy Decoding oder Sampling wird der wahrscheinlichste ausgewählt, bis die Ausgabe vollständig ist. Damit Inferenz in der Praxis skalierbar bleibt, greifen Ingenieure zu mehreren Optimierungsstrategien: Quantisierung reduziert die numerische Präzision der Gewichte (z. B. von 32-Bit auf 4-Bit), was Speicher und Rechenzeit spart. Batching bündelt mehrere Anfragen zu einer einzigen Berechnung. Speculative Decoding nutzt ein kleineres Hilfsmodell, um Ausgaben vorherzusagen und anschließend zu verifizieren. Auf Hardware-Ebene treiben spezialisierte Architekturen wie NVIDIAs Blackwell-Architektur den Durchsatz weiter nach oben. Zwei Kennzahlen dominieren das Engineering: Inferenzlatenz (Zeit von Input zu Output, typischerweise in Millisekunden gemessen) und Throughput (Vorhersagen pro Sekunde) – je nach Anwendungsfall steht mal die eine, mal die andere im Vordergrund.

Inferenz in der Praxis

Die drei dominanten Betriebsmodi unterscheiden sich erheblich in ihren Anforderungen. Online-Inferenz läuft in Echtzeit – ein Coding-Assistent, der dir beim Tippen Vorschläge liefert, toleriert keine Latenz über wenige hundert Millisekunden. Batch-Inferenz dagegen verarbeitet große Datenmengen zeitversetzt, etwa wenn ein E-Commerce-System nächtlich Millionen von Produktbeschreibungen klassifiziert – hier zählt Durchsatz, nicht Reaktionszeit. Edge-Inferenz verlagert die Berechnung direkt auf das Endgerät: Smartphones, Fahrassistenzsysteme oder Industriekameras führen Modelle lokal aus, weil Cloud-Roundtrips schlicht zu langsam wären. Ein Praxiswert: Bildklassifikationsmodelle auf optimierter Hardware erreichen Latenzen von rund 20 ms pro Vorhersage – schnell genug für Echtzeit-Videoanalyse.

Vorteile und Grenzen

Der größte Vorteil von Inferenz liegt in ihrer Effizienz im Vergleich zum Training: Ein Modell, das Monate auf Tausenden GPUs trainiert wurde, kann danach auf einer einzigen Grafikkarte – oder sogar auf einem Smartphone – Inferenz betreiben. Optimierungen wie Quantisierung machen Modelle weiter zugänglich, ohne die Genauigkeit drastisch zu verschlechtern. Die Grenzen sind jedoch real: Inferenz ist strikt an die Qualität des zugrunde liegenden Trainings gebunden. Ein schlecht trainiertes Modell inferiert konsequent falsch – und zwar ohne es zu merken. Größere und vielfältigere Trainingsdaten erhöhen zwar die Verlässlichkeit der Inferenz, aber sie garantieren keine Fehlerfreiheit. Hinzu kommt der Kostenfaktor: Bei hochfrequent genutzten LLMs summieren sich Inferenzkosten in der Cloud schnell zu erheblichen Beträgen, was den Trend zur Edge- und On-Premise-Inferenz weiter befeuert. Verteilte Inferenz-Setups lösen das Skalierungsproblem, bringen aber neue Komplexität in Latenz-Orchestrierung und Lastverteilung mit sich.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen Training und Inferenz?

Beim Training passt ein Modell seine internen Parameter iterativ an, um Muster aus Daten zu lernen. Bei der Inferenz sind diese Parameter eingefroren – das Modell wendet das Gelernte nur noch an, ohne sich weiterzuentwickeln.

▶ Wie wird Inferenz schneller gemacht?

Die wichtigsten Techniken sind Quantisierung (Reduktion der Rechengenauigkeit der Gewichte), Batching (Bündelung mehrerer Anfragen), Speculative Decoding sowie der Einsatz spezialisierter Inferenz-Hardware. Zusammen senken sie Latenz und Kosten erheblich.

▶ Was ist der Unterschied zwischen Online- und Batch-Inferenz?

Online-Inferenz verarbeitet einzelne Anfragen in Echtzeit mit niedrigster Latenz, zum Beispiel in Chatbots oder Fahrassistenten. Batch-Inferenz bündelt viele Anfragen und verarbeitet sie zeitversetzt, was den Durchsatz maximiert – ideal für Analysen großer Datensätze ohne Echtzeitanforderung.

Stand: 20. März 2026