GPU — PromptLoop Glossar

Was ist eine GPU?

Eine GPU (Graphics Processing Unit) ist ein spezialisierter Prozessor, der für massiv parallele Berechnungen ausgelegt ist. Während eine CPU (Central Processing Unit) auf sequentielle Aufgaben mit wenigen, dafür sehr leistungsfähigen Kernen setzt, packt eine GPU Tausende kleinerer Kerne auf einen Chip – ideal für Operationen, die sich gleichzeitig auf riesige Datensätze anwenden lassen. Genau das braucht Machine Learning: Matrixmultiplikationen, Vektoroperationen und das Aktualisieren von Gewichten in neuronalen Netzen sind perfekte Parallelarbeiten. Das Problem, das die GPU löst, ist simpel: Eine CPU mit 16 Kernen würde Wochen brauchen, wofür eine moderne Datacenter-GPU Stunden benötigt.

Wie funktioniert eine GPU?

Der Kern der GPU-Architektur ist das SIMD-Prinzip (Single Instruction, Multiple Data): Ein Befehl wird gleichzeitig auf viele Datenpunkte angewendet. Moderne KI-GPUs wie der NVIDIA H100 enthalten spezialisierte Tensor Cores, die für Mixed-Precision-Berechnungen (FP16, BF16, INT8) optimiert sind – die dominanten Datenformate beim Training von Large Language Models (LLMs). Entscheidend ist dabei der VRAM (Video RAM): Er bestimmt, wie große Modelle direkt auf dem Chip gehalten werden können. Durch Quantisierung (z. B. via GGUF oder GPTQ) lässt sich der Speicherbedarf um bis zu 75 % senken – ein 70-Milliarden-Parameter-Modell läuft so auf einem Server mit zwei Consumer-GPUs à 24 GB VRAM. Das Software-Ökosystem rund um CUDA (NVIDIAs proprietäres Programmiermodell) hat dabei einen Netzwerkeffekt erzeugt, den Konkurrenten wie AMD oder Intel mit ROCm und oneAPI bisher kaum brechen konnten.

GPU in der Praxis

Drei Use Cases dominieren den KI-Alltag: Erstens das Modelltraining – große Sprachmodelle werden auf Clustern aus Hunderten bis Tausenden GPUs über Wochen trainiert, koordiniert durch Frameworks wie PyTorch mit verteiltem Training über NVLink und Hochgeschwindigkeitsnetzwerke. Zweitens die Inferenz: Tools wie vLLM optimieren den GPU-Speicher für parallele Anfragen, reduzieren Latenz und ermöglichen skalierbare API-Endpunkte – ein kritischer Faktor für produktive KI-Anwendungen. Drittens virtualisierte Umgebungen: NVIDIA vGPU erlaubt es, eine physische GPU auf mehrere VMs aufzuteilen, was AI/ML-Workloads in Cloud-Infrastrukturen flexibel skalierbar macht, ohne dedizierte Hardware pro Nutzer zu erfordern.

Vorteile und Grenzen

Die Stärken liegen klar auf der Hand: unübertroffene Parallelverarbeitungsleistung für Matrix-Operationen, ein ausgereiftes Software-Ökosystem (CUDA), und eine stetig wachsende Unterstützung durch Open-Source-Tools. Für Deep Learning und LLM-Inferenz gibt es derzeit keine ernstzunehmende Alternative im Massenmarkt. Die Grenzen sind jedoch real: GPUs sind teuer – Datacenter-Chips kosten schnell fünfstellige Beträge pro Stück – und energiehungrig. Der VRAM ist nach wie vor ein harter Flaschenhals: Wer Modelle über die VRAM-Kapazität hinaus laden will, akzeptiert drastische Performance-Einbußen durch Auslagern auf CPU-RAM. Zudem ist die Abhängigkeit vom CUDA-Ökosystem ein Klumpenrisiko: Wer auf NVIDIA setzt, ist an dessen Roadmap, Preispolitik und Lieferkette gebunden – ein strategisches Problem, das Hyperscaler mit eigenen KI-Chips wie Googles TPU oder Amazons Trainium aktiv adressieren.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen GPU und CPU für KI?

Eine CPU hat wenige, sehr leistungsstarke Kerne für sequentielle Aufgaben. Eine GPU besitzt Tausende kleinerer Kerne, die dieselbe Operation gleichzeitig auf viele Datenpunkte anwenden – ideal für die Matrixmultiplikationen in neuronalen Netzen. Für KI-Training ist eine GPU daher oft 10- bis 100-mal schneller als eine vergleichbare CPU.

▶ Wie viel VRAM brauche ich, um ein LLM lokal zu betreiben?

Das hängt von der Modellgröße und Quantisierungsstufe ab. Mit Quantisierung (z. B. GGUF 4-Bit) lässt sich ein 7B-Modell mit etwa 4–6 GB VRAM betreiben, ein 70B-Modell benötigt rund 40–48 GB. Ohne Quantisierung sind die Anforderungen 2–4x höher.

▶ Warum dominiert NVIDIA den KI-GPU-Markt?

NVIDIA hat mit CUDA seit 2006 ein tiefes Software-Ökosystem aufgebaut, das heute der De-facto-Standard für KI-Frameworks wie PyTorch und TensorFlow ist. Dieser Netzwerkeffekt macht einen Wechsel zu AMD oder Intel trotz vergleichbarer Hardware-Leistung für die meisten Entwickler und Unternehmen unattraktiv.

Stand: 20. März 2026