OpenAI hat die Responses API um einen WebSocket-Modus erweitert, der agentic Workflows laut eigenen Angaben um bis zu 40% beschleunigt. Der Auslöser war konkret: Mit GPT-5.3-Codex-Spark, einem auf Cerebras-Hardware laufenden Coding-Modell, erreichte OpenAI über 1.000 Token pro Sekunde – doch die API selbst wurde zum Flaschenhals, weil sie bei jedem Turn die gesamte Konversationshistorie neu verarbeiten musste. Vorgängermodelle liefen bei rund 65 Token pro Sekunde, was diesen Overhead noch verdeckte. Bei nahezu 1.000 TPS fiel er deutlich ins Gewicht.
- OpenAI hat für die Responses API einen neuen WebSocket-Modus eingeführt, der komplexe agentic Workflows um bis zu 40 Prozent beschleunigt.
- Dank einer persistenten Verbindung bleibt die Konversationshistorie im serverseitigen Arbeitsspeicher, was ständige Neuverarbeitungen überflüssig macht.
- Der neue Transportweg lässt sich als unkomplizierte Drop-in-Lösung praktisch ohne weitreichende Code-Änderungen an der Geschäftslogik implementieren.
Die Lösung: eine persistente WebSocket-Verbindung, die serverseitig den Zustand vergangener Responses im Arbeitsspeicher hält. Statt bei jedem Folge-Request die komplette Historie neu zu senden, überträgt der Client lediglich neue Eingaben und die previous_response_id. Das spart teure Tokenisierungs-Durchläufe, redundante Safety-Classifier-Läufe über den gesamten Verlauf und unnötige Netzwerk-Hops zu Zwischendiensten. In einem zweiwöchigen Alpha-Programm mit Coding-Agent-Startups bestätigten sich die Werte: Vercel meldete bis zu 40% weniger Latenz im AI SDK, Cline beschleunigte Multi-File-Workflows um 39%, und OpenAI-Modelle in Cursor wurden bis zu 30% schneller. Im Produktivbetrieb sah OpenAI mit GPT-5.3-Codex-Spark Spitzen von bis zu 4.000 TPS.
Für Entwickler ändert sich an der API-Struktur wenig: response.create funktioniert wie bisher, previous_response_id war bereits bekannt. Der WebSocket-Transport ist ein Drop-in – kein Umbau der Integrationslogik nötig. Für DACH-Unternehmen, die Coding-Agenten oder komplexe Automatisierungs-Pipelines auf Basis der OpenAI-API betreiben, ist das relevant: Längere Agentic Loops mit vielen Tool Calls profitieren direkt, ohne Code-Änderungen an der Geschäftslogik.
❓ Häufig gestellte Fragen
✅ 10 Claims geprüft, davon 5 mehrfach verifiziert
📚 Quellen