Alibabas Qwen-Team hat Qwen3.6-27B veröffentlicht – das erste vollständig dichte Open-Weight-Modell der Qwen3.6-Familie, lizenziert unter Apache 2.0. Verfügbar auf dem Hugging Face Hub, übertrifft es auf Benchmarks für Agentic Coding sowohl seinen direkten Vorgänger Qwen3.5-27B als auch das schwerere Qwen3.5-397B-A17B Mixture-of-Experts-Modell. Auf SWE-bench Pro erreicht Qwen3.6-27B 53,5 Punkte gegenüber 50,9 für das 397B-MoE. Bei SkillsBench Avg5 springt der Wert von 27,2 auf 48,2, was einem Anstieg von 77 Prozent entspricht. Auf Terminal-Bench 2.0 erzielt es mit 59,3 Punkten denselben Wert wie Claude Opus 4.6. Das Modell bietet ein natives Kontextfenster von 262.144 Token, das sich mittels YaRN-Skalierung auf bis zu 1.010.000 Token erweitern lässt.
- Alibabas neues Qwen3.6-27B Open-Weight-Modell übertrifft bei Coding-Benchmarks deutlich massivere MoE-Modelle.
- Architektonische Neuerungen wie eine hybride Aufmerksamkeitsarchitektur und 'Thinking Preservation' optimieren iterative Agenten-Workflows.
- Das multimodale KI-Modell unterstützt ein mit YaRN skalierbares Kontextfenster von bis zu einer Million Token.
Zwei architektonische Neuerungen sind für diese Verbesserungen verantwortlich: Erstens nutzt Qwen3.6-27B eine hybride Aufmerksamkeitsarchitektur, bei der drei von vier Sublayern die speichereffiziente Gated-DeltaNet-Linear-Attention verwenden; klassische Self-Attention kommt nur in jedem vierten Sublayer zum Einsatz. Dies reduziert den quadratischen Rechenaufwand langer Kontexte und ermöglicht spekulatives Decoding via Multi-Token Prediction (MTP) zur Steigerung des Durchsatzes. Zweitens führt das Modell „Thinking Preservation“ ein. Über einen API-Parameter können Reasoning-Traces aus früheren Gesprächsrunden dauerhaft im Kontext gehalten werden, anstatt sie nach jedem Turn zu verwerfen. Dies ist besonders relevant für iterative Agenten-Workflows, da es redundante Token-Generierung reduziert und die Effizienz der KV-Cache-Nutzung verbessert, insbesondere für Coding-Agenten in Produktionspipelines.
Auf Hugging Face Hub stehen zwei Gewichtsvarianten zur Verfügung: "Qwen/Qwen3.6-27B" in BF16 und "Qwen/Qwen3.6-27B-FP8" mit feingranularer FP8-Quantisierung und einer Blockgröße von 128. Die Leistung der FP8-Quantisierung ist laut Qwen-Team nahezu identisch mit dem Original. Beide Varianten sind kompatibel mit SGLang (ab Version 0.5.10), vLLM (ab 0.19.0), KTransformers und Hugging Face Transformers. Das Modell ist nativ multimodal und kann Text, Bilder und Video verarbeiten.
Token-Rechner wird geladen…
❓ Häufig gestellte Fragen
✅ 10 Claims geprüft, davon 7 mehrfach verifiziert
📚 Quellen