OpenAI Responses API: WebSocket-Mode macht…

OpenAI Responses API: WebSocket-Mode macht Agentic Workflows bis zu 40% schneller

OpenAI hat für die Responses API einen WebSocket-Modus eingeführt, der agentic Workflows mit vielen Tool Calls um bis zu 40% beschleunigt – durch persistente Verbindungen statt wiederholter HTTP-Requests.

Jonas

22. April 2026, 18:30 Uhr ·2 Min. Lesezeit

OpenAI hat die Responses API um einen WebSocket-Modus erweitert, der agentic Workflows laut eigenen Angaben um bis zu 40% beschleunigt. Der Auslöser war konkret: Mit GPT-5.3-Codex-Spark, einem auf Cerebras-Hardware laufenden Coding-Modell, erreichte OpenAI über 1.000 Token pro Sekunde – doch die API selbst wurde zum Flaschenhals, weil sie bei jedem Turn die gesamte Konversationshistorie neu verarbeiten musste. Vorgängermodelle liefen bei rund 65 Token pro Sekunde, was diesen Overhead noch verdeckte. Bei nahezu 1.000 TPS fiel er deutlich ins Gewicht.

⚡ TL;DR

OpenAI hat für die Responses API einen neuen WebSocket-Modus eingeführt, der komplexe agentic Workflows um bis zu 40 Prozent beschleunigt.
Dank einer persistenten Verbindung bleibt die Konversationshistorie im serverseitigen Arbeitsspeicher, was ständige Neuverarbeitungen überflüssig macht.
Der neue Transportweg lässt sich als unkomplizierte Drop-in-Lösung praktisch ohne weitreichende Code-Änderungen an der Geschäftslogik implementieren.

Die Lösung: eine persistente WebSocket-Verbindung, die serverseitig den Zustand vergangener Responses im Arbeitsspeicher hält. Statt bei jedem Folge-Request die komplette Historie neu zu senden, überträgt der Client lediglich neue Eingaben und die previous_response_id. Das spart teure Tokenisierungs-Durchläufe, redundante Safety-Classifier-Läufe über den gesamten Verlauf und unnötige Netzwerk-Hops zu Zwischendiensten. In einem zweiwöchigen Alpha-Programm mit Coding-Agent-Startups bestätigten sich die Werte: Vercel meldete bis zu 40% weniger Latenz im AI SDK, Cline beschleunigte Multi-File-Workflows um 39%, und OpenAI-Modelle in Cursor wurden bis zu 30% schneller. Im Produktivbetrieb sah OpenAI mit GPT-5.3-Codex-Spark Spitzen von bis zu 4.000 TPS.

Für Entwickler ändert sich an der API-Struktur wenig: response.create funktioniert wie bisher, previous_response_id war bereits bekannt. Der WebSocket-Transport ist ein Drop-in – kein Umbau der Integrationslogik nötig. Für DACH-Unternehmen, die Coding-Agenten oder komplexe Automatisierungs-Pipelines auf Basis der OpenAI-API betreiben, ist das relevant: Längere Agentic Loops mit vielen Tool Calls profitieren direkt, ohne Code-Änderungen an der Geschäftslogik.

❓ Häufig gestellte Fragen

▶ Warum wurde der neue WebSocket-Modus für die API entwickelt?

Schnelle Modelle wie GPT-5.3-Codex-Spark machten die herkömmliche API zum Flaschenhals, da bei jedem Turn die gesamte Historie neu verarbeitet wurde. Der WebSocket-Modus umgeht dieses Problem und ermöglicht so Spitzen von bis zu 4.000 Token pro Sekunde im Produktivbetrieb.

▶ Welche technischen Vorteile bietet die persistente Verbindung genau?

Vergangene Antworten werden über die Verbindung dauerhaft im serverseitigen Arbeitsspeicher gehalten. Der Client sendet dadurch nur noch neue Eingaben mit einer Referenz-ID, was redundante Tokenisierungs-Durchläufe und zeitraubende Sicherheitsscans erspart.

▶ Wie aufwendig ist die Umstellung für bestehende KI-Projekte?

Die Integration ist denkbar einfach, da sich an der grundlegenden API-Struktur nahezu nichts ändert. Der WebSocket-Transport lässt sich als direktes Drop-in nutzen, sodass die bestehende Integrationslogik der Entwickler nicht umgebaut werden muss.

✅ 10 Claims geprüft, davon 5 mehrfach verifiziert

ℹ️ Wie wir prüfen →

📚 Quellen

Speeding up agentic workflows with WebSockets in the Responses API

❓ Häufig gestellte Fragen

Das könnte dich auch interessieren

ChatGPT Update: OpenAI startet autonome Workspace Agents

Anthropic: Test entfernte Claude Code zeitweise aus Pro‑Plan

Alexis Ohanian: Kritisierte Abschiebepolitik und forderte Weg zur Staatsbürgerschaft