DeepSeek hat seine vierte Generation von KI-Modellen, DeepSeek-V4-Pro und DeepSeek-V4-Flash, vorgestellt. Beide Modelle sind für die effiziente Inferenz von Kontexten mit bis zu einer Million Token ausgelegt.
- DeepSeek hat mit V4-Pro und V4-Flash zwei effiziente KI-Modelle eingeführt, die ein enormes Kontextfenster von bis zu einer Million Token bewältigen.
- Eine neue hybride Aufmerksamkeitsarchitektur reduziert den KV-Cache-Speicherbedarf um 90 Prozent, was den Betrieb komplexer KI-Agenten massiv erleichtert.
- Die Modelle sind gezielt für die Inferenz auf NVIDIA Blackwell-Hardware optimiert und erzielen in ersten Tests herausragende 150 Token pro Sekunde.
DeepSeek-V4-Pro ist das größere Modell mit 1,6 Billionen Gesamtparametern und 49 Milliarden aktiven Parametern. DeepSeek-V4-Flash, ein kleineres Modell mit 284 Milliarden Parametern und 13 Milliarden aktiven Parametern, zielt auf höhere Geschwindigkeiten und Effizienz ab. Beide Modelle unterstützen ein Kontextfenster von bis zu einer Million Token, was Anwendungen in der Codierung, Dokumentenanalyse und für Agenten-KI-Workflows ermöglicht.
Architektur-Innovationen für Agenten-Workflows
Die V4-Familie baut auf der DeepSeek MoE-Architektur auf und optimiert die Aufmerksamkeitskomponente der Transformer-Architektur. Diese Innovationen sollen eine Reduzierung der Inferenz-FLOPs pro Token um 73 Prozent und eine Verringerung des KV-Cache-Speicherbedarfs um 90 Prozent im Vergleich zu DeepSeek-V3.2 erreichen.
Diese architektonischen Neuerungen sind relevant, da lange Kontexte für Agenten-Anwendungen zunehmend wichtig werden. Agenten verwalten Systemanweisungen, Tool-Ausgaben, abgerufene Kontexte, Code, Protokolle, Speicher und mehrstufige Argumentationsketten über einen Workflow hinweg. Mit zunehmender Kontextgröße werden Aufmerksamkeit und KV-Cache zu Engpässen.
Die Kernlösung ist eine hybride Aufmerksamkeit, die Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA) kombiniert. CSA nutzt dynamische Sequenzkompression zur Reduzierung des KV-Cache-Speicherbedarfs und wendet DeepSeek Sparse Attention (DSA) an, um Aufmerksamkeitsmatrizen zu sparsifizieren und den Rechenaufwand zu minimieren. HCA konsolidiert KV-Einträge über Token-Sets hinweg zu einem einzigen komprimierten Eintrag, was zu einer erheblichen Reduzierung der KV-Cache-Größe führt.
NVIDIA Blackwell bietet die erforderliche Skalierbarkeit und geringe Latenz für diese Art von Workloads. Erste Tests von DeepSeek-V4-Pro auf NVIDIA GB200 NVL72 zeigten über 150 Token/Sekunde/Benutzer. Diese Ergebnisse basieren auf einer 1K/1K ISL/OSL-Konfiguration unter Verwendung des nativen MXFP4-Formats des Modells. Die Leistung wird voraussichtlich durch weitere Optimierungen der NVIDIA-Software und Hardware-Stacks verbessert.
Entwickler können DeepSeek V4 über NVIDIA GPU-beschleunigte Endpunkte auf build.nvidia.com nutzen, um Prototypen zu erstellen, bevor sie zu selbst gehosteten Bereitstellungspfaden übergehen.
❓ Häufig gestellte Fragen
✅ 10 Claims geprüft, davon 7 mehrfach verifiziert (build.nvidia.com)
📚 Quellen