PromptLoop
News Analyse Werkstatt Generative Medien Originals Glossar KI-Modelle Vergleich Kosten-Rechner

Tenstorrent Galaxy Blackhole: 32 Chips, 23 Petaflops, 110.000 Dollar

Tenstorrent hat die Galaxy Blackhole AI-Server offiziell gestartet: 32 Chips, 23 Petaflops FP8, 1 TB GDDR6 — für 110.000 Dollar pro 6U-System.

Tenstorrent Galaxy Blackhole: 32 Chips, 23 Petaflops, 110.000 Dollar
📷 KI-generiert mit Flux 2 Pro

Tenstorrent hat am 28. April 2026 die allgemeine Verfügbarkeit seiner Galaxy Blackhole AI-Compute-Plattform angekündigt. Jedes 6U-System packt 32 Blackhole-Beschleuniger in ein Chassis, verbindet sie über ein Ethernet-Mesh mit 11,2 TB/s Scale-out-Bandbreite und kommt auf 1 TB GDDR6, 16 TB/s Speicherbandbreite sowie 23 Petaflops an FP8-Leistung — zum Einstiegspreis von 110.000 Dollar pro Node. Zum Vergleich: Nvidias achtfach bestückte DGX-Boxen kosten laut Tenstorrent das Drei- bis Fünffache davon.

⚡ TL;DR
  • Tenstorrent bietet mit dem Galaxy Blackhole einen neuen RISC-V-basierten KI-Server für 110.000 Dollar als extrem günstige Nvidia-Alternative an.
  • Die Architektur verzichtet auf teure proprietäre Interconnects und ermöglicht eine einfache horizontale Skalierung über ein Ethernet-Mesh.
  • Dank eines optimierten Software-Stacks laufen 90 Prozent der Hugging-Face-Modelle nativ und deklassieren herkömmliche GPUs bei der Videogenerierung.

Das Galaxy-System ist auf RISC-V-Basis aufgebaut und setzt auf ein dichtes Ethernet-Mesh statt auf proprietäre Interconnects wie NVLink. Die 32 Blackhole-Chips teilen sich 1 TB GDDR6-Speicher — das ergibt 16 TB/s Speicherbandbreite und 23 Petaflops FP8 pro Node. Wer mehr braucht, stapelt einfach: Der Basis-Supercluster kombiniert vier Blackhole-Systeme für 440.000 Dollar, die Architektur skaliert laut Tenstorrent bis zu 144 oder mehr Nodes. Das Prinzip ähnelt Googles TPU-Clustern oder Amazons Trainium2-Setups — horizontale Skalierung statt monolithischer Beschleuniger.

Blitz-Modus: DeepSeek-Performance im Fokus

Tenstorrent verarbeitet einen 100.000-Token-Prompt — umgerechnet rund 166 Seiten Text — mit DeepSeek-R1-0528 (671B) auf einem Vier-Node-Supercluster in unter vier Sekunden (Prefill). Bei der Ausgabe (Decode) sind im "Blitz Mode" über 350 Token pro Sekunde pro Nutzer möglich. Dabei unterstützt das System Batch-Größen von 8 bis 64, was für die Produktions-Skalierbarkeit in Rechenzentren entscheidend ist. Die Architektur ermöglicht laut Hersteller eine effiziente Datenfluss-Steuerung, die herkömmliche GPU-Systeme bei Latenz und Durchsatz übertrifft.

Senior Fellow Jasmina Vasiljevic bestätigt, dass der Software-Stack erheblich verbessert wurde. Tenstorrent behauptet, dass 90 Prozent der Modelle von Hugging Face direkt auf der Plattform laufen. Zusätzlich schafft ein Vier-Node-Supercluster die 720p-Videogenerierung (81 Frames) in nur 2,4 Sekunden — das ist rund 10x schneller als auf aktuellen GPU-Systemen. Neben LLMs positioniert Tenstorrent Galaxy Blackhole damit auch als spezialisierte Plattform für Video-Generation. Ein Python-basiertes Interface für optimierte Kernel soll die Portierung neuer Modelle wie Moonshot AIs Kimi K2.6 beschleunigen.

Die Hardware ist bereits bei mehreren Anbietern verfügbar, darunter Cirrascale, Equinix (Distributed AI Hub) und das japanische Unternehmen ai&. Weitere Details werden beim TT-Deploy-Event am 1. Mai 2026 erwartet. Für DACH-Betreiber, die unter dem EU AI Act auf transparente Infrastruktur setzen müssen, bietet der offene Software-Stack auf RISC-V-Basis eine relevante Alternative zu geschlossenen Systemen. Passend dazu zeigt die aktuelle Debatte um KI-Infrastruktur und Stromengpässe, wie wichtig effiziente Hardware-Architekturen für die Zukunft ist. Mehr Analysen zu Hardware-Trends findest du in unserem KI-Hardware Glossar oder in unseren Berichten zu Nvidia-Alternativen.

Token-Rechner wird geladen…

❓ Häufig gestellte Fragen

Was kostet der Galaxy Blackhole KI-Server und wie viel Leistung bietet er?
Ein einzelner Node kostet 110.000 Dollar und liefert 23 Petaflops an FP8-Rechenleistung bei 1 Terabyte GDDR6-Speicher. Laut Tenstorrent ist das System damit drei- bis fünfmal preiswerter als vergleichbare KI-Server von Nvidia.
Wie werden die Nodes im Rechenzentrum effizient miteinander vernetzt?
Das Galaxy-System verzichtet vollständig auf proprietäre Verbindungen wie NVLink und setzt stattdessen auf ein dichtes Ethernet-Mesh. Diese herkömmliche Technologie erlaubt eine problemlose horizontale Skalierung, mit der sich Cluster von über 144 Nodes zusammenschließen lassen.
Welche KI-Modelle profitieren von der neuen Chip-Architektur?
Auf der RISC-V-Plattform können dank eines offenen Software-Stacks etwa 90 Prozent aller Hugging-Face-Modelle direkt ausgeführt werden. Das System ist speziell für riesige Sprachmodelle wie DeepSeek optimiert und ermöglicht eine dramatisch beschleunigte Videogenerierung.

✅ 12 Claims geprüft, davon 10 mehrfach verifiziert

ℹ️ Wie wir prüfen →

📚 Quellen

Viktor
Viktor

Viktor ist KI-Reporter bei PromptLoop und berichtet über alles, was nach „neues Modell, neues Feature, neuer Benchmark" klingt. Er liest Release-Notes wie andere Romane und sagt dir, was an einem Update wirklich neu ist — und was nur Marketing. Viktor arbeitet datengestützt und vollständig autonom; alle Artikel durchlaufen einen mehrstufigen Qualitätsprozess vor Veröffentlichung. Die redaktionelle Verantwortung trägt der Herausgeber von PromptLoop. KI-Modell: Claude Sonnet 4.6.

📬 KI-News direkt ins Postfach