Regression — PromptLoop Glossar

Was ist eine Regression?

Regression ist ein überwachtes Lernverfahren im Machine Learning, das die mathematische Beziehung zwischen einer oder mehreren Eingabevariablen (Features) und einer kontinuierlichen Zielgröße modelliert. Das Ziel: einen numerischen Wert vorherzusagen – keine Kategorie, keine Klasse. Damit grenzt sich Regression klar von der Klassifikation ab, die diskrete Labels wie „Spam" oder „kein Spam" ausgibt. Unter dem Oberbegriff Regression versammeln sich zahlreiche Varianten, darunter lineare Regression, polynomielle Regression, Ridge- und Lasso-Regression sowie logistische Regression – letztere trotz des Namens eigentlich ein Klassifikationsverfahren. Gemeinsam ist allen: Sie schöpfen aus den mathematischen Disziplinen Linearalgebra, Wahrscheinlichkeitsrechnung und Statistik.

Wie funktioniert Regression?

Im Kern sucht ein Regressionsmodell die Funktion f(x), die den Abstand zwischen vorhergesagten und tatsächlichen Werten minimiert. Bei der linearen Regression geschieht das über die Methode der kleinsten Quadrate (Ordinary Least Squares, OLS): Die Summe der quadrierten Residuen – also der Differenzen zwischen Vorhersage und Realwert – wird auf ein Minimum reduziert. Komplexere Modelle setzen auf Gradientenabstieg, um die Gewichte iterativ anzupassen. Regularisierungsverfahren wie Ridge (L2) und Lasso (L1) beugen dabei Overfitting vor, indem sie große Koeffizienten bestrafen. Die Güte eines Regressionsmodells wird typischerweise über Metriken wie den Mean Squared Error (MSE), den Root Mean Squared Error (RMSE) oder das Bestimmtheitsmaß R² bewertet. R² gibt an, welcher Anteil der Varianz in den Zieldaten durch das Modell erklärt wird – ein Wert nahe 1 bedeutet hohe Erklärungskraft, ein Wert nahe 0 das Gegenteil.

Regression in der Praxis

Die Einsatzgebiete sind breit und konkret: Immobilienplattformen nutzen Regressionsmodelle, um Kaufpreise anhand von Merkmalen wie Lage, Quadratmeterzahl und Baujahr zu schätzen. Energieversorger setzen Regression ein, um den Stromverbrauch stundengenau zu prognostizieren und Netzlast optimal zu steuern. Im Finanzbereich berechnen Kreditinstitute über Regressionsmodelle Ausfallwahrscheinlichkeiten und Zinssätze – auf Basis von Bonitätsdaten und Einkommensinformationen. Auch im Natural Language Processing taucht Regression auf: etwa wenn Sentiment-Scores als kontinuierliche Größe zwischen 0 und 1 ausgegeben werden statt als binäre Klasse.

Vorteile und Grenzen

Der größte Vorteil von Regressionsmodellen ist ihre Interpretierbarkeit: Lineare Modelle zeigen transparent, welcher Feature wie stark zur Vorhersage beiträgt – ein klarer Pluspunkt gegenüber Black-Box-Modellen in regulierten Branchen. Sie sind recheneffizient, benötigen vergleichsweise wenig Trainingsdaten und liefern bei linearen Zusammenhängen starke Ergebnisse. Die Grenzen liegen jedoch auf der Hand: Sobald Beziehungen zwischen Variablen nichtlinear oder hochdimensional werden, stoßen einfache Regressionsmodelle schnell an ihre Kapazitätsgrenzen. Sie reagieren empfindlich auf Ausreißer und setzen oft Annahmen voraus – wie Homoskedastizität oder Normalverteilung der Residuen –, die in der Praxis häufig verletzt werden. Für komplexe Muster sind Ensemble-Methoden wie Gradient Boosting oder tiefe neuronale Netze oft die bessere Wahl.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen Regression und Klassifikation?

Regression sagt kontinuierliche numerische Werte voraus (z. B. einen Preis oder eine Temperatur), während Klassifikation diskrete Kategorien ausgibt (z. B. 'Spam' oder 'kein Spam'). Beide gehören zum überwachten Lernen, unterscheiden sich aber fundamental in der Art der Zielgröße.

▶ Wann sollte ich Regression statt komplexerer Modelle verwenden?

Regression ist die erste Wahl, wenn Interpretierbarkeit wichtig ist, die Datenmenge begrenzt ist oder ein linearer Zusammenhang zwischen Features und Zielgröße vermutet wird. Für hochdimensionale oder stark nichtlineare Probleme sind Ensemble-Methoden oder neuronale Netze in der Regel überlegen.

▶ Was bedeutet R² bei einem Regressionsmodell?

R² (Bestimmtheitsmaß) gibt an, wie viel Prozent der Varianz in den Zieldaten durch das Modell erklärt werden. Ein R² von 0,85 bedeutet, dass das Modell 85 % der Streuung in den Daten abbildet. Ein Wert nahe 1 ist gut, nahe 0 bedeutet, das Modell erklärt kaum etwas – ist aber allein kein vollständiges Gütekriterium.

Stand: 20. März 2026