Feature Engineering — PromptLoop Glossar

Was ist Feature Engineering?

Feature Engineering bezeichnet den Prozess der Auswahl, Erstellung, Transformation und Modifikation von Eingabevariablen — sogenannten Features — aus Rohdaten, mit dem Ziel, die Leistung von Machine-Learning-Modellen zu optimieren. Der Kern des Konzepts liegt im Einsatz von Domänenwissen: Statt Rohdaten blind in ein Modell zu pumpen, übersetzt ein Data Scientist die Realität in mathematisch verarbeitbare Signale. Ein klassisches Beispiel ist die Kombination der Variablen „Entfernung" und „Zeit" zu einer neuen Variable „Geschwindigkeit" — ein Feature, das für ein Modell deutlich mehr Aussagekraft besitzt als seine Einzelteile. Wichtig ist die Abgrenzung zur Datenvorverarbeitung: Während Letztere Daten bereinigt und formatiert, zielt Feature Engineering auf kreative Mehrwerte ab, die versteckte Muster erst sichtbar machen. Verwandte Konzepte sind Feature Selection (Auswahl relevanter Merkmale), Feature Extraction (Ableitung neuer Merkmale aus bestehenden) und Automated Machine Learning (AutoML).

Wie funktioniert Feature Engineering?

Der Prozess lässt sich in vier Kernschritte gliedern. Erstens die Feature-Erstellung: Neue Variablen werden durch mathematische Operationen, Zeitreihen-Aggregationen oder Domänenwissen aus Rohdaten abgeleitet. Zweitens das Feature-Encoding: Kategorische Daten — etwa Städtenamen oder Produktkategorien — werden in numerische Repräsentationen überführt, z. B. via One-Hot-Encoding oder Target-Encoding. Drittens das Feature-Scaling: Variablen mit stark unterschiedlichen Wertebereichen werden normalisiert oder standardisiert, damit Algorithmen wie Gradient Boosting oder lineare Modelle nicht durch Größenordnungen verzerrt werden. Viertens die Feature-Selektion: Irrelevante oder redundante Variablen werden entfernt, um Overfitting zu reduzieren und die Recheneffizienz zu steigern. Für die Automatisierung dieser Schritte existieren spezialisierte Tools: Featuretools nutzt Deep Feature Synthesis, um Features über relationale Datenstrukturen hinweg automatisch zu aggregieren und nach Wichtigkeit zu ranken. Auch bei Deep-Learning-Architekturen wie CNNs, die viele Features intern selbst lernen, bleibt manuelles Feature Engineering bei tabellarischen Daten und ressourcenbeschränkten Umgebungen — Stichwort Edge Computing — ein entscheidender Hebel.

Feature Engineering in der Praxis

Musikstreaming-Plattformen nutzen Feature Engineering, um Empfehlungsalgorithmen zu schärfen: Aus Rohdaten wie Song-Bewertungen und Hördauer entstehen aggregierte Features wie „durchschnittliche Wiedergaberate pro Genre in den letzten 30 Tagen" — ein Signal, das ein nacktes Bewertungs-Feature weit übertrifft. Im Bereich Computer Vision werden Bilddaten durch Größenanpassung, Kontrastnormalisierung und Kantenerkennung vorverarbeitet, bevor sie in Klassifikationsmodelle fließen — auch dort ist Feature Engineering der Schritt zwischen Rohdaten und verwertbarem Input. Ein weiterer realer Anwendungsfall kommt aus dem Cloud-Computing: AWS setzt Feature-Extraktion ein, um aus unstrukturierten Rohdaten wie Preislisten strukturierte, modellierbare Merkmale zu erzeugen — ein Prozess, der manuelle Datenpflege erheblich reduziert.

Vorteile und Grenzen

Der größte Vorteil von Feature Engineering ist sein Hebel-Effekt: Gut konstruierte Features ermöglichen es, mit einfacheren — und damit schnelleren und interpretierbaren — Modellen hohe Genauigkeit zu erreichen. Das ist besonders relevant auf Edge-Geräten, wo Rechenkapazität knapp ist. Darüber hinaus verbessert es die Modellinterpretierbarkeit, weil Features mit klarem semantischen Bezug leichter erklärbar sind als opake Rohvariablen. Die Grenzen sind allerdings real: Feature Engineering ist zeitintensiv und erfordert tiefes Domänenwissen — wer den Datensatz nicht versteht, erzeugt im schlimmsten Fall Features, die Datenlecks (Data Leakage) verursachen und Modelle im Produktionsbetrieb zum Absturz bringen. Automatisierte Ansätze wie Featuretools reduzieren den manuellen Aufwand, ersetzen das domänenspezifische Urteilsvermögen aber nicht vollständig. Und bei Deep-Learning-Modellen auf großen, unstrukturierten Datensätzen — Sprache, Bild, Audio — schwindet der Mehrwert manuellen Feature Engineerings zugunsten end-to-end gelernter Repräsentationen.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen Feature Engineering und Feature Selection?

Feature Engineering erschafft neue Variablen aus Rohdaten — durch Transformation, Kombination oder Domänenwissen. Feature Selection wählt aus bereits vorhandenen Features die relevantesten aus und entfernt redundante oder störende Variablen. Beide Schritte ergänzen sich im ML-Workflow, sind aber konzeptionell verschieden.

▶ Wird Feature Engineering durch Deep Learning überflüssig?

Nicht vollständig. Deep-Learning-Architekturen wie CNNs lernen bei unstrukturierten Daten (Bilder, Sprache) viele Repräsentationen automatisch. Bei tabellarischen Daten, Edge-Computing-Szenarien oder ressourcenbeschränkten Modellen bleibt manuelles Feature Engineering jedoch ein entscheidender Qualitätshebel — oft effektiver als der Wechsel zu einer komplexeren Architektur.

▶ Was ist Data Leakage im Kontext von Feature Engineering?

Data Leakage entsteht, wenn ein Feature Informationen aus der Zukunft oder dem Testdatensatz enthält, die im Produktionsbetrieb nicht verfügbar wären. Das Modell lernt dann Muster, die es real nicht geben kann — die Genauigkeit im Training ist hoch, im echten Einsatz versagt das Modell. Korrektes Feature Engineering verhindert Leakage durch strikte zeitliche und datensatzbezogene Trennung.

Stand: 20. März 2026