Mistral AI hat am 30. April 2026 Mistral Medium 3.5 veröffentlicht: ein dichtes 128B‑Parameter‑Modell mit einem 256k‑Token Kontextfenster und einer Preisstruktur von $1.50 pro 1M Eingabe‑Tokens und $7.50 pro 1M Ausgabe‑Tokens.
- Mistral AI hat das multimodale 128B-Modell Mistral Medium 3.5 mit einem enormen Kontextfenster von 256.000 Tokens veröffentlicht.
- Das offene Modell adressiert gezielt komplexe agentische Workflows sowie Programmieraufgaben und lässt sich bereits ab vier GPUs selbst hosten.
- Wegen wesentlich teurerer Ausgabe-Tokens im Vergleich zu den Eingaben wird effizientes Prompting zur wirtschaftlichen Pflicht für Entwickler.
Die neue Version richtet sich explizit an agentische Workflows, Codierung und komplexe, mehrstufige Aufgaben; das Modell akzeptiert Text- und Bild‑Inputs und liefert Textausgaben. Die offizielle Seite listet technische Details, Durchsatz und Latenzwerte sowie eine Integration in das Provider‑Routing von OpenRouter. Du findest die Modellseite hier: OpenRouter · Mistral Medium 3.5.
Technische Spezifikationen und Benchmarks
Architektonisch ist Medium 3.5 als dichtes Modell konzipiert, das alle Parameter bei jeder Token‑Generierung lädt. Mistral bewirbt konfigurierbares Reasoning per Request, einen neuen Vision‑Encoder für variable Bildgrößen und eine Fähigkeit, verlässliche Multi‑Tool‑Aufrufe durchzuführen. Laut den veröffentlichten Metriken liegt der durchschnittliche Durchsatz bei 82 tok/s; die durchschnittliche Serverlatenz beträgt 0,83 s, die End‑to‑end‑Latenz 4,40 s. Tool‑Call‑Fehler treten mit 2,60 % auf, strukturierte Ausgabe‑Fehler mit 0,65 %.
Das Modell ist als selbst‑hostbar beschrieben und soll auf so wenig wie vier GPUs laufen; die Gewichte stehen über Mistrals Dokumentation und Mirror‑Seiten zum Download bereit. Die Mistral‑Dokumentation mit Model Card ist zentraler Link für Entwickler: docs.mistral.ai · Model Card.
Benchmarks auf der Listingseite zeigen zusammengesetzte Scores: ein allgemeiner Intelligenz‑Index von 39.2, ein Composite‑Coding‑Score von 35.4 und einen Agentic‑Capability‑Score von 53.2. Die Details nennen zudem spezifische Reasoning‑Benchmarks wie GPQA Diamond mit 74.8 % und AA‑LCR für Langzeit‑Kontext‑Reasoning mit 61.0 %.
Für Produktteams ist relevant: OpenRouter bietet Provider‑Routing, Caching‑Statistiken und ein Status‑Page‑Fallback, um Uptime zu maximieren. Die Plattform zeigt auch Aktivitätsmuster: Top‑Apps wie pi, Zed Editor oder OpenClaw nutzen das Modell mit Millionen Tokens pro Monat, was die Eignung für coding‑intensive und agentische Anwendungen belegt.
Die Preisformel (Input/Output) macht die Kostenstruktur transparent, aber auch ungleich: Ausgabe‑Tokens sind deutlich teurer als Eingabe‑Tokens, was bei großen Responses die TCO schnell erhöht. Für Entwickler heißt das: Prompt‑Engineering und Caching werden ökonomisch relevant, gerade bei langen Completion‑Outputs und Reasoning‑Tokens.
Die deutschsprachigen Tech‑Berichte zur Ankündigung fassen Einsatzszenarien und Cloud‑Integrationen zusammen; ein frühes Hands‑on beschreibt den Einsatz in Cloud‑basierten Coding‑Agenten und einem neuen "Work Mode" für Le Chat, der Agenten parallel auf Dienste zugreifen lässt. Siehe Berichterstattung bei Mind‑Verse: Mind‑Verse · Mistral Medium 3.5.
Für Entscheider heißt das: Mistral Medium 3.5 bietet eine Balance aus Offenheit (Weights verfügbar), Multimodalität und agentischer Eignung, gekoppelt an eine erkennbare Kostenstruktur und Produktionsmetriken. Wer Coding‑Agenten oder Multi‑Tool‑Pipelines plant, bekommt ein technisch konkurrenzfähiges Modell, muss aber Prompt‑Kosten und Output‑Volumen in die Budgetplanung einrechnen.
Token-Rechner wird geladen…
❓ Häufig gestellte Fragen
📰 Recherchiert auf Basis von 3 Primärquellen (openrouter.ai, docs.mistral.ai, mind-verse.de)
📚 Quellen