Tenstorrent Galaxy Blackhole: 32 Chips, 23…

Tenstorrent hat am 28. April 2026 die allgemeine Verfügbarkeit seiner Galaxy Blackhole AI-Compute-Plattform angekündigt. Jedes 6U-System packt 32 Blackhole-Beschleuniger in ein Chassis, verbindet sie über ein Ethernet-Mesh mit 11,2 TB/s Scale-out-Bandbreite und kommt auf 1 TB GDDR6, 16 TB/s Speicherbandbreite sowie 23 Petaflops an FP8-Leistung — zum Einstiegspreis von 110.000 Dollar pro Node. Zum Vergleich: Nvidias achtfach bestückte DGX-Boxen kosten laut Tenstorrent das Drei- bis Fünffache davon.

⚡ TL;DR

Tenstorrent bietet mit dem Galaxy Blackhole einen neuen RISC-V-basierten KI-Server für 110.000 Dollar als extrem günstige Nvidia-Alternative an.
Die Architektur verzichtet auf teure proprietäre Interconnects und ermöglicht eine einfache horizontale Skalierung über ein Ethernet-Mesh.
Dank eines optimierten Software-Stacks laufen 90 Prozent der Hugging-Face-Modelle nativ und deklassieren herkömmliche GPUs bei der Videogenerierung.

Das Galaxy-System ist auf RISC-V-Basis aufgebaut und setzt auf ein dichtes Ethernet-Mesh statt auf proprietäre Interconnects wie NVLink. Die 32 Blackhole-Chips teilen sich 1 TB GDDR6-Speicher — das ergibt 16 TB/s Speicherbandbreite und 23 Petaflops FP8 pro Node. Wer mehr braucht, stapelt einfach: Der Basis-Supercluster kombiniert vier Blackhole-Systeme für 440.000 Dollar, die Architektur skaliert laut Tenstorrent bis zu 144 oder mehr Nodes. Das Prinzip ähnelt Googles TPU-Clustern oder Amazons Trainium2-Setups — horizontale Skalierung statt monolithischer Beschleuniger.

Blitz-Modus: DeepSeek-Performance im Fokus

Tenstorrent verarbeitet einen 100.000-Token-Prompt — umgerechnet rund 166 Seiten Text — mit DeepSeek-R1-0528 (671B) auf einem Vier-Node-Supercluster in unter vier Sekunden (Prefill). Bei der Ausgabe (Decode) sind im "Blitz Mode" über 350 Token pro Sekunde pro Nutzer möglich. Dabei unterstützt das System Batch-Größen von 8 bis 64, was für die Produktions-Skalierbarkeit in Rechenzentren entscheidend ist. Die Architektur ermöglicht laut Hersteller eine effiziente Datenfluss-Steuerung, die herkömmliche GPU-Systeme bei Latenz und Durchsatz übertrifft.

Senior Fellow Jasmina Vasiljevic bestätigt, dass der Software-Stack erheblich verbessert wurde. Tenstorrent behauptet, dass 90 Prozent der Modelle von Hugging Face direkt auf der Plattform laufen. Zusätzlich schafft ein Vier-Node-Supercluster die 720p-Videogenerierung (81 Frames) in nur 2,4 Sekunden — das ist rund 10x schneller als auf aktuellen GPU-Systemen. Neben LLMs positioniert Tenstorrent Galaxy Blackhole damit auch als spezialisierte Plattform für Video-Generation. Ein Python-basiertes Interface für optimierte Kernel soll die Portierung neuer Modelle wie Moonshot AIs Kimi K2.6 beschleunigen.

Die Hardware ist bereits bei mehreren Anbietern verfügbar, darunter Cirrascale, Equinix (Distributed AI Hub) und das japanische Unternehmen ai&. Weitere Details werden beim TT-Deploy-Event am 1. Mai 2026 erwartet. Für DACH-Betreiber, die unter dem EU AI Act auf transparente Infrastruktur setzen müssen, bietet der offene Software-Stack auf RISC-V-Basis eine relevante Alternative zu geschlossenen Systemen. Passend dazu zeigt die aktuelle Debatte um KI-Infrastruktur und Stromengpässe, wie wichtig effiziente Hardware-Architekturen für die Zukunft ist. Mehr Analysen zu Hardware-Trends findest du in unserem KI-Hardware Glossar oder in unseren Berichten zu Nvidia-Alternativen.

Token-Rechner wird geladen…

❓ Häufig gestellte Fragen

▶ Was kostet der Galaxy Blackhole KI-Server und wie viel Leistung bietet er?

Ein einzelner Node kostet 110.000 Dollar und liefert 23 Petaflops an FP8-Rechenleistung bei 1 Terabyte GDDR6-Speicher. Laut Tenstorrent ist das System damit drei- bis fünfmal preiswerter als vergleichbare KI-Server von Nvidia.

▶ Wie werden die Nodes im Rechenzentrum effizient miteinander vernetzt?

Das Galaxy-System verzichtet vollständig auf proprietäre Verbindungen wie NVLink und setzt stattdessen auf ein dichtes Ethernet-Mesh. Diese herkömmliche Technologie erlaubt eine problemlose horizontale Skalierung, mit der sich Cluster von über 144 Nodes zusammenschließen lassen.

▶ Welche KI-Modelle profitieren von der neuen Chip-Architektur?

Auf der RISC-V-Plattform können dank eines offenen Software-Stacks etwa 90 Prozent aller Hugging-Face-Modelle direkt ausgeführt werden. Das System ist speziell für riesige Sprachmodelle wie DeepSeek optimiert und ermöglicht eine dramatisch beschleunigte Videogenerierung.

✅ 12 Claims geprüft, davon 10 mehrfach verifiziert

ℹ️ Wie wir prüfen →

📚 Quellen

Tenstorrent’s Galaxy Blackhole AI servers escape the event horizon

Blitz-Modus: DeepSeek-Performance im Fokus

❓ Häufig gestellte Fragen

Das könnte dich auch interessieren

Anthropic: Claude Security startet Public Beta für Enterprise-Kunden

Twilio Q1 2026: Stärkstes Umsatzwachstum seit drei Jahren durch KI-Nachfrage

Chinas KI-Startups kehren ins Inland zurück: Peking zieht die Kontrolle an