GPU
Was ist eine GPU?
Eine GPU (Graphics Processing Unit) ist ein spezialisierter Prozessor, der für massiv parallele Berechnungen ausgelegt ist. Während eine CPU (Central Processing Unit) auf sequentielle Aufgaben mit wenigen, dafür sehr leistungsfähigen Kernen setzt, packt eine GPU Tausende kleinerer Kerne auf einen Chip – ideal für Operationen, die sich gleichzeitig auf riesige Datensätze anwenden lassen. Genau das braucht Machine Learning: Matrixmultiplikationen, Vektoroperationen und das Aktualisieren von Gewichten in neuronalen Netzen sind perfekte Parallelarbeiten. Das Problem, das die GPU löst, ist simpel: Eine CPU mit 16 Kernen würde Wochen brauchen, wofür eine moderne Datacenter-GPU Stunden benötigt.
Wie funktioniert eine GPU?
Der Kern der GPU-Architektur ist das SIMD-Prinzip (Single Instruction, Multiple Data): Ein Befehl wird gleichzeitig auf viele Datenpunkte angewendet. Moderne KI-GPUs wie der NVIDIA H100 enthalten spezialisierte Tensor Cores, die für Mixed-Precision-Berechnungen (FP16, BF16, INT8) optimiert sind – die dominanten Datenformate beim Training von Large Language Models (LLMs). Entscheidend ist dabei der VRAM (Video RAM): Er bestimmt, wie große Modelle direkt auf dem Chip gehalten werden können. Durch Quantisierung (z. B. via GGUF oder GPTQ) lässt sich der Speicherbedarf um bis zu 75 % senken – ein 70-Milliarden-Parameter-Modell läuft so auf einem Server mit zwei Consumer-GPUs à 24 GB VRAM. Das Software-Ökosystem rund um CUDA (NVIDIAs proprietäres Programmiermodell) hat dabei einen Netzwerkeffekt erzeugt, den Konkurrenten wie AMD oder Intel mit ROCm und oneAPI bisher kaum brechen konnten.
GPU in der Praxis
Drei Use Cases dominieren den KI-Alltag: Erstens das Modelltraining – große Sprachmodelle werden auf Clustern aus Hunderten bis Tausenden GPUs über Wochen trainiert, koordiniert durch Frameworks wie PyTorch mit verteiltem Training über NVLink und Hochgeschwindigkeitsnetzwerke. Zweitens die Inferenz: Tools wie vLLM optimieren den GPU-Speicher für parallele Anfragen, reduzieren Latenz und ermöglichen skalierbare API-Endpunkte – ein kritischer Faktor für produktive KI-Anwendungen. Drittens virtualisierte Umgebungen: NVIDIA vGPU erlaubt es, eine physische GPU auf mehrere VMs aufzuteilen, was AI/ML-Workloads in Cloud-Infrastrukturen flexibel skalierbar macht, ohne dedizierte Hardware pro Nutzer zu erfordern.
Vorteile und Grenzen
Die Stärken liegen klar auf der Hand: unübertroffene Parallelverarbeitungsleistung für Matrix-Operationen, ein ausgereiftes Software-Ökosystem (CUDA), und eine stetig wachsende Unterstützung durch Open-Source-Tools. Für Deep Learning und LLM-Inferenz gibt es derzeit keine ernstzunehmende Alternative im Massenmarkt. Die Grenzen sind jedoch real: GPUs sind teuer – Datacenter-Chips kosten schnell fünfstellige Beträge pro Stück – und energiehungrig. Der VRAM ist nach wie vor ein harter Flaschenhals: Wer Modelle über die VRAM-Kapazität hinaus laden will, akzeptiert drastische Performance-Einbußen durch Auslagern auf CPU-RAM. Zudem ist die Abhängigkeit vom CUDA-Ökosystem ein Klumpenrisiko: Wer auf NVIDIA setzt, ist an dessen Roadmap, Preispolitik und Lieferkette gebunden – ein strategisches Problem, das Hyperscaler mit eigenen KI-Chips wie Googles TPU oder Amazons Trainium aktiv adressieren.