DeepSeek, ein chinesisches KI-Unternehmen, hat neue Open-Weights Large Language Models (LLMs) namens DeepSeek V4 vorgestellt, die mit proprietären US-LLMs konkurrieren und gleichzeitig die Inferenzkosten erheblich senken sollen. Diese Modelle sind auch mit Huaweis Ascend-Familie von KI-Beschleunigern kompatibel. DeepSeek V4 ist in zwei Varianten erhältlich: ein kleineres Flash-Modell mit 284 Milliarden Parametern und 13 Milliarden aktiven Parametern, sowie ein größeres V4-Pro-Modell mit 1,6 Billionen Parametern, von denen 49 Milliarden aktiv sind. Das V4-Pro-Modell wurde mit beeindruckenden 33 Billionen Tokens trainiert und übertrifft laut DeepSeeks eigenen Benchmarks bestehende Open-Weight-LLMs, während es mit führenden proprietären Modellen des Westens vergleichbar ist.
- DeepSeek bringt mit V4 zwei neue Open-Weight-Modelle auf den Markt, die westlichen Spitzen-KIs leistungsstark Konkurrenz machen.
- Ein hybrider Aufmerksamkeitsmechanismus und die Nutzung von FP4-Präzision reduzieren den Speicherbedarf und die Inferenzkosten drastisch.
- Die neuen Modelle laufen neben Nvidia-Chips auch auf KI-Beschleunigern von Huawei und stärken damit Chinas technologische Position.
Die Effizienzsteigerungen der DeepSeek V4-Modelle sind auf mehrere architektonische Neuerungen zurückzuführen. Eine wesentliche Verbesserung ist ein hybrider Aufmerksamkeitsmechanismus, der Compressed Sparse Attention mit Heavy Compressed Attention kombiniert. Dies reduziert den Rechenaufwand während der Inferenz und den Speicherbedarf für die KV-Caches erheblich. Diese Optimierungen ermöglichen ein Kontextfenster von einer Million Tokens bei einem 9,5- bis 13,7-mal geringeren Speicherverbrauch im Vergleich zu DeepSeek V3.2. Zusätzlich setzen die Modelle auf Datentypen mit geringerer Präzision, indem sie eine Mischung aus FP8- und FP4-Präzision verwenden. FP4 halbiert den Speicherbedarf für Modellgewichte im Vergleich zu FP8, was zu weiteren Kosteneinsparungen beiträgt. Die MoE-Experten-Gewichte werden zudem mit Quantisierungs-aware Training behandelt.
DeepSeek betonte die Validierung der Modelle für sowohl Nvidia- als auch Huawei-Beschleuniger, was die breite Anwendbarkeit und die Unterstützung der Huawei-KI-Infrastruktur unterstreicht. Es ist jedoch unklar, ob Huawei-Hardware auch für das Training der Modelle eingesetzt wurde, da frühere Versuche in diesem Bereich Berichten zufolge auf technische Schwierigkeiten stießen. Die 4-Bit-Präzision in V4 ist nicht exklusiv für Nvidias Blackwell-Architektur; Hopper-GPUs können FP4 im Gewichts-Modus verarbeiten, was den Speicherbedarf und die Bandbreite reduziert, selbst ohne Hardware-Beschleunigung für Fließkomma-Operationen. Die genaue Nutzung der Huawei-Hardware für das Training und Details der Kooperation bleiben vage.
Token-Rechner wird geladen…
❓ Häufig gestellte Fragen
📰 Recherchiert auf Basis von 1 Primärquelle (go.theregister.com)
📚 Quellen