Reinforcement Learning — PromptLoop Glossar

Was ist Reinforcement Learning?

Reinforcement Learning (RL) ist neben überwachtem Lernen und unüberwachtem Lernen eines der drei zentralen Paradigmen des maschinellen Lernens. Der entscheidende Unterschied: RL benötigt keine vorgelabelten Trainingsdaten. Stattdessen lernt ein Agent durch direkte Interaktion mit einer Umgebung — er trifft Entscheidungen, beobachtet die Konsequenzen und passt sein Verhalten schrittweise an. Das Konzept löst ein fundamentales Problem: Wie trainiert man ein System für sequentielle Entscheidungsprobleme, bei denen der optimale nächste Schritt nicht isoliert bewertet werden kann, sondern immer vom langfristigen Gesamtergebnis abhängt? Genau hier versagt klassisches supervised Learning systematisch.

Wie funktioniert Reinforcement Learning?

Das RL-Framework besteht aus fünf Kernkomponenten: Agent, Umgebung, Aktionen, Zustände und einer Belohnungsfunktion R(s, a) — wobei s den aktuellen Zustand und a die gewählte Aktion beschreibt. Der Agent wählt eine Aktion, die Umgebung wechselt in einen neuen Zustand, und der Agent erhält ein Belohnungssignal. Ziel ist die Maximierung der kumulativen, diskontierten Belohnung über die Zeit — nicht die sofortige Maximierung des nächsten Schritts. Zentral dabei ist die Q-Funktion Q(s, a), die den erwarteten kumulativen Belohnungswert für eine Zustand-Aktion-Kombination schätzt. Algorithmen wie Q-Learning aktualisieren diese Funktion iterativ. Das Spannungsfeld zwischen Exploration (neue Strategien ausprobieren) und Exploitation (bekannte, gute Strategien nutzen) ist dabei eine der zentralen Herausforderungen beim Training. Ein aufstrebendes Forschungsfeld ist Quantum Reinforcement Learning (QRL), das Qubits zur Repräsentation von Zuständen und Aktionen nutzt und durch parallele Quantenverarbeitung eine effizientere Suche im Zustandsraum verspricht.

Reinforcement Learning in der Praxis

Die Anwendungsbreite von RL ist bemerkenswert konkret. In der Robotik trainieren Systeme motorische Fähigkeiten wie Greifen oder Laufen durch physische oder simulierte Trial-and-Error-Zyklen — ohne explizite Bewegungsprogrammierung. Im Bereich autonomes Fahren optimieren RL-Agenten Fahrstrategien in simulierten Umgebungen, bevor sie auf reale Szenarien übertragen werden. Besonders konkret ist der Einsatz in der Lagerverwaltung: RL-Systeme optimieren Bestellmengen dynamisch, indem sie kontinuierlich Feedback zu Lagerkosten und Lieferzeiten verarbeiten. Und im Kontext von Large Language Models spielt RL eine wachsende Rolle — OpenAI setzt RL-basierte Techniken ein, um agentische KI-Systeme durch interaktives Feedback zu verfeinern.

Vorteile und Grenzen

Der entscheidende Vorteil von RL: Es ist das einzige ML-Paradigma, das nativ für sequentielle Entscheidungsprobleme unter Unsicherheit ausgelegt ist. Es braucht keine vorannotierte Ground Truth — das System generiert seine eigenen Trainingssignale durch Interaktion. Das macht es mächtig für Domains, in denen Labeling teuer oder unmöglich ist. Die Grenzen sind jedoch erheblich: RL ist notorisch datenintensiv und rechenaufwendig — Millionen von Interaktionsschritten sind keine Seltenheit. Die Gestaltung der Belohnungsfunktion ist fehleranfällig: eine schlecht definierte Funktion führt zu sogenanntem Reward Hacking, bei dem der Agent die Funktion formal optimiert, aber das eigentlich gewünschte Verhalten verfehlt. Hinzu kommt die Transferproblematik: In Simulation trainierte Agenten versagen häufig in der realen Umgebung — der sogenannte Sim-to-Real Gap bleibt ein offenes Forschungsproblem.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen Reinforcement Learning und überwachtem Lernen?

Überwachtes Lernen lernt aus vorab gelabelten Daten — ein Mensch gibt vor, was die richtige Antwort ist. Reinforcement Learning hingegen generiert seine Trainingssignale selbst: Der Agent interagiert mit einer Umgebung und erhält Belohnungen oder Strafen basierend auf seinen Aktionen. Es braucht keine Ground Truth, ist dafür aber deutlich rechenintensiver und schwieriger zu stabilisieren.

▶ Wofür wird Reinforcement Learning heute konkret eingesetzt?

Reinforcement Learning dominiert überall dort, wo sequentielle Entscheidungen optimiert werden müssen: in der Robotik für motorisches Training, im autonomen Fahren für Fahrstrategien, in der Logistik für dynamische Bestandsoptimierung sowie in der KI-Entwicklung — etwa bei der Feinabstimmung von Large Language Models durch interaktives Feedback.

▶ Was ist Reward Hacking bei Reinforcement Learning?

Reward Hacking beschreibt das Phänomen, dass ein RL-Agent die definierte Belohnungsfunktion formal optimiert, dabei aber das eigentlich gewünschte Verhalten verfehlt. Wenn die Belohnungsfunktion unvollständig oder fehlerhaft spezifiziert ist, findet der Agent oft kreative Abkürzungen, die technisch zur Maximierung der Belohnung führen, aber praktisch nutzlos oder sogar schädlich sind. Das macht die sorgfältige Definition der Belohnungsfunktion zu einer der kritischsten Aufgaben beim RL-Design.

Stand: 20. März 2026