Tenstorrent hat am 28. April 2026 die allgemeine Verfügbarkeit seiner Galaxy Blackhole AI-Compute-Plattform angekündigt. Jedes 6U-System packt 32 Blackhole-Beschleuniger in ein Chassis, verbindet sie über ein Ethernet-Mesh mit 11,2 TB/s Scale-out-Bandbreite und kommt auf 1 TB GDDR6, 16 TB/s Speicherbandbreite sowie 23 Petaflops an FP8-Leistung — zum Einstiegspreis von 110.000 Dollar pro Node. Zum Vergleich: Nvidias achtfach bestückte DGX-Boxen kosten laut Tenstorrent das Drei- bis Fünffache davon.
- Tenstorrent bietet mit dem Galaxy Blackhole einen neuen RISC-V-basierten KI-Server für 110.000 Dollar als extrem günstige Nvidia-Alternative an.
- Die Architektur verzichtet auf teure proprietäre Interconnects und ermöglicht eine einfache horizontale Skalierung über ein Ethernet-Mesh.
- Dank eines optimierten Software-Stacks laufen 90 Prozent der Hugging-Face-Modelle nativ und deklassieren herkömmliche GPUs bei der Videogenerierung.
Das Galaxy-System ist auf RISC-V-Basis aufgebaut und setzt auf ein dichtes Ethernet-Mesh statt auf proprietäre Interconnects wie NVLink. Die 32 Blackhole-Chips teilen sich 1 TB GDDR6-Speicher — das ergibt 16 TB/s Speicherbandbreite und 23 Petaflops FP8 pro Node. Wer mehr braucht, stapelt einfach: Der Basis-Supercluster kombiniert vier Blackhole-Systeme für 440.000 Dollar, die Architektur skaliert laut Tenstorrent bis zu 144 oder mehr Nodes. Das Prinzip ähnelt Googles TPU-Clustern oder Amazons Trainium2-Setups — horizontale Skalierung statt monolithischer Beschleuniger.
Blitz-Modus: DeepSeek-Performance im Fokus
Tenstorrent verarbeitet einen 100.000-Token-Prompt — umgerechnet rund 166 Seiten Text — mit DeepSeek-R1-0528 (671B) auf einem Vier-Node-Supercluster in unter vier Sekunden (Prefill). Bei der Ausgabe (Decode) sind im "Blitz Mode" über 350 Token pro Sekunde pro Nutzer möglich. Dabei unterstützt das System Batch-Größen von 8 bis 64, was für die Produktions-Skalierbarkeit in Rechenzentren entscheidend ist. Die Architektur ermöglicht laut Hersteller eine effiziente Datenfluss-Steuerung, die herkömmliche GPU-Systeme bei Latenz und Durchsatz übertrifft.
Senior Fellow Jasmina Vasiljevic bestätigt, dass der Software-Stack erheblich verbessert wurde. Tenstorrent behauptet, dass 90 Prozent der Modelle von Hugging Face direkt auf der Plattform laufen. Zusätzlich schafft ein Vier-Node-Supercluster die 720p-Videogenerierung (81 Frames) in nur 2,4 Sekunden — das ist rund 10x schneller als auf aktuellen GPU-Systemen. Neben LLMs positioniert Tenstorrent Galaxy Blackhole damit auch als spezialisierte Plattform für Video-Generation. Ein Python-basiertes Interface für optimierte Kernel soll die Portierung neuer Modelle wie Moonshot AIs Kimi K2.6 beschleunigen.
Die Hardware ist bereits bei mehreren Anbietern verfügbar, darunter Cirrascale, Equinix (Distributed AI Hub) und das japanische Unternehmen ai&. Weitere Details werden beim TT-Deploy-Event am 1. Mai 2026 erwartet. Für DACH-Betreiber, die unter dem EU AI Act auf transparente Infrastruktur setzen müssen, bietet der offene Software-Stack auf RISC-V-Basis eine relevante Alternative zu geschlossenen Systemen. Passend dazu zeigt die aktuelle Debatte um KI-Infrastruktur und Stromengpässe, wie wichtig effiziente Hardware-Architekturen für die Zukunft ist. Mehr Analysen zu Hardware-Trends findest du in unserem KI-Hardware Glossar oder in unseren Berichten zu Nvidia-Alternativen.
Token-Rechner wird geladen…
❓ Häufig gestellte Fragen
✅ 12 Claims geprüft, davon 10 mehrfach verifiziert
📚 Quellen