Die Architektur des Dienstes ist mehrstufig. Auf der Ingestion-Seite erhält jede Nachricht eine content-adressierte SHA-256-ID für idempotentes Re-Ingesting. Ein Extraktor läuft in zwei parallelen Durchgängen: ein breiter Pass, der bei rund 10.000 Zeichen chunked, und ein Detail-Pass, der sich auf konkrete Werte wie Namen, Preise und Versionsnummern konzentriert. Bevor Erinnerungen klassifiziert werden, durchlaufen sie acht Verifikationschecks — das Ergebnis sind vier Typen: Fakten, Events, Instruktionen und Tasks. Neue Erinnerungen überlagern dabei alte, ohne sie zu löschen.
- Cloudflare bringt mit Agent Memory einen Dienst in die private Beta, der KI-Agenten ein persistentes Gedächtnis über Session-Grenzen hinweg verleiht.
- Das System glänzt mit einem Fünf-Kanal-Suchsystem zur genauen Datenabfrage und ermöglicht das Teilen von Agentenwissen für ganze Entwicklerteams.
- Trotz der starken Integration ins eigene Ökosystem warnen Evaluatoren vor einem Vendor Lock-in und der Abhängigkeit von vorgegebenen Modellen.
Technische Architektur: Multi-Channel Retrieval und RRF
Auf der Abrufseite laufen fünf Kanäle parallel und fusionieren ihre Ergebnisse per Reciprocal Rank Fusion: Volltextsuche, exakter Fact-Key-Lookup, Rohmeldungssuche, direktes Vektorsearch und HyDE-Vektorsuche, die eine deklarative Antwort generiert, um Vokabular-Mismatches abzufangen. Für Extraktion und Klassifikation setzt Cloudflare standardmäßig auf Llama 4 Scout (17B MoE), für die Synthese auf Nemotron 3 (120B MoE) — das größere Modell helfe laut Cloudflare ausschließlich in der Synthesephase.
Das vielleicht interessanteste Feature ist Shared Memory. Ein Memory-Profil muss keinem einzelnen Agenten gehören — Teams können ein Profil teilen, sodass Wissen, das ein Coding-Agent über Konventionen oder Architekturentscheidungen gelernt hat, sofort für alle verfügbar ist. Cloudflare nutzt das intern: Ein agentischer Code-Reviewer lernte, bei einem bestimmten Pattern zu schweigen, das der Autor bewusst beibehalten hatte. Das klingt nach einem kleinen Detail, ist aber im Alltag erheblich — wer jemals einen Agenten betrieben hat, der denselben Kommentar zwanzigmal wiederholt, weiß warum.
Eran Stiller, Chief Software Architect bei Cartesian und InfoQ-Editor, formulierte die strategische Implikation präzise: „The moment an agent needs memory, you no longer have a chat problem. You have an architecture problem." Memory werde damit zunehmend weniger ein Modell-Feature und mehr Infrastruktur — mit eigenem Lifecycle-Management, Verifikation, Kompaktierung und Isolation.
Evaluation: Vendor Lock-in und Extraktionsqualität
Kristopher Dunham hat den Dienst in einer öffentlichen Evaluation ausführlich bewertet und zwei Schwachstellen herausgearbeitet. Erstens: Vendor Lock-in. Exportierbar bedeutet, dass rohe Fakten extrahiert werden können — nicht aber, dass die Retrieval-Pipeline portabel ist. Zweitens hängt die Extraktionsqualität von Sekundärmodellen ab, auf die Entwickler keinen direkten Einfluss haben. Dunhams praktische Empfehlung: Den remember-Tool explizit für kritische Fakten nutzen, statt ausschließlich auf automatisches Ingesting zu vertrauen. Kompaktierung sollte bei etwa 60 Prozent des Context Windows ausgelöst werden — nicht erst am Limit.
Der Markt ist inzwischen eng. Mem0 bietet eine Cloud-API mit Vektor-, Graph- und Key-Value-Storage. Zeps Graphiti-Engine nutzt einen temporalen Knowledge-Graph, der nachverfolgt, wann Fakten gültig waren. LangMem integriert sich in LangGraph, erfordert aber Self-Hosting. Letta (ehemals MemGPT) setzt auf eine gestufte Memory-Hierarchie, bei der Agenten ihren eigenen Kontext kontrollieren. Was Cloudflare unterscheidet: Edge-Distribution, enge Integration mit Durable Objects, Vectorize und Workers AI — und der Multi-Channel-Retrieval-Ansatz, der nicht auf einen einzigen Suchpfad wettet. Für Entwickler, die bereits im Cloudflare-Ökosystem bauen, ist die Hürde für Vektordatenbank-Integrationen damit minimal.
❓ Häufig gestellte Fragen
✅ 12 Claims geprüft, davon 5 mehrfach verifiziert
📚 Quellen