Computer Vision — PromptLoop Glossar

Was ist Computer Vision?

Computer Vision ist ein Teilgebiet der Künstlichen Intelligenz (KI), das Maschinen in die Lage versetzt, visuelle Informationen aus Bildern und Videos zu interpretieren, zu analysieren und daraus Schlüsse zu ziehen. Das Ziel: Computern etwas beizubringen, was Menschen mühelos können — sehen und verstehen. Das Konzept existiert, weil strukturierte Daten allein längst nicht ausreichen. Ein enormer Teil der weltweit generierten Information ist visuell — von Produktionsfotos über Satellitenbilder bis hin zu Echtzeit-Videostreams. Eng verwandt ist Computer Vision mit Machine Learning, Deep Learning und Natural Language Processing (NLP), etwa wenn Textinhalte aus Bildern per OCR (Optical Character Recognition) extrahiert werden sollen.

Wie funktioniert Computer Vision?

Der technische Kern moderner Computer Vision besteht aus drei Phasen. Im Preprocessing werden Rohdaten bereinigt: Rauschen wird reduziert, Bilder normalisiert und skaliert. Danach folgt die Feature Extraction — der entscheidende Schritt, bei dem das Modell relevante Merkmale wie Kanten, Texturen oder Formen identifiziert. Hier dominieren Convolutional Neural Networks (CNNs), die durch ihre schichtweise Filterarchitektur hierarchische Bildmerkmale extrahieren — von simplen Kanten in frühen Schichten bis hin zu abstrakten Objektrepräsentationen in tiefen Schichten. Ergänzend gewinnen Vision Transformers (ViTs) an Bedeutung: Sie wenden den aus der Sprachverarbeitung bekannten Attention-Mechanismus auf Bildpixel an und erzielen bei großen Datensätzen teils überlegene Ergebnisse. Im Postprocessing werden die Modellausgaben schließlich interpretiert und in verwertbare Ergebnisse überführt — etwa Bounding Boxes bei der Objekterkennung oder pixelgenaue Masken bei der semantischen Segmentierung. Für synthetische Bildgenerierung oder Auflösungsverbesserung kommen zusätzlich Generative Adversarial Networks (GANs) zum Einsatz.

Computer Vision in der Praxis

Drei Use Cases zeigen die Bandbreite besonders deutlich. Erstens: Autonomes Fahren. Teslas Autopilot-Systeme analysieren permanent den visuellen Input mehrerer Kameras in Echtzeit — Fußgänger, Fahrspuren, Verkehrsschilder und andere Fahrzeuge werden kontinuierlich erkannt und klassifiziert. Zweitens: Medizinische Bildgebung. Deep-Learning-Modelle erreichen bei der Auswertung von Radiologiebildern zur Brustkrebsdiagnose eine Genauigkeit von über 90 % — und entlasten damit radiologische Abteilungen bei der Triage. Drittens: Qualitätskontrolle in der Fertigung. In automatisierten Produktionslinien erkennen CV-Systeme Oberflächendefekte, Maßabweichungen oder Montagefehler mit einer Geschwindigkeit und Konsistenz, die manuell schlicht nicht erreichbar ist.

Vorteile und Grenzen

Der größte Vorteil von Computer Vision liegt in der Skalierbarkeit: Ein trainiertes Modell wertet Millionen von Bildern aus, ohne zu ermüden oder inkonsistent zu werden. Die Technologie arbeitet zudem in Echtzeit und erschließt Datenquellen, die bislang strukturell unzugänglich waren. Die Grenzen sind jedoch real. CV-Modelle sind datenintensiv — für robuste Ergebnisse braucht es große, sorgfältig annotierte Trainingsdatensätze. Gleichzeitig sind die Modelle anfällig für sogenannte Adversarial Attacks: minimal veränderte Eingabebilder können Klassifikatoren täuschen, was in sicherheitskritischen Anwendungen ein ernstes Problem darstellt. Hinzu kommen ethische Fragen rund um Gesichtserkennung und Bias in Trainingsdaten, die dazu führen können, dass Modelle bestimmte demografische Gruppen schlechter erkennen als andere.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen Computer Vision und Bildverarbeitung?

Klassische Bildverarbeitung (Image Processing) transformiert Bilder regelbasiert — etwa zum Entrauschen oder Schärfen. Computer Vision geht einen Schritt weiter: Sie interpretiert den Bildinhalt semantisch, erkennt Objekte und leitet Bedeutung ab. Computer Vision nutzt heute typischerweise Deep Learning, während traditionelle Bildverarbeitung auf manuell definierten Algorithmen basiert.

▶ Welche Programmiersprachen und Frameworks werden für Computer Vision verwendet?

Python ist die dominierende Sprache im CV-Bereich. Die wichtigsten Frameworks sind PyTorch und TensorFlow für das Modelltraining sowie OpenCV für klassische Bildverarbeitung und Vorverarbeitung. Für den produktiven Einsatz kommen häufig ONNX-Runtime oder plattformspezifische Inference-Engines hinzu.

▶ Wie viele Daten braucht man, um ein Computer-Vision-Modell zu trainieren?

Das hängt stark von der Aufgabe und Methode ab. Für einfache Klassifikationsaufgaben können Fine-Tuning-Ansätze auf Basis vortrainierter Modelle bereits mit einigen Hundert bis wenigen Tausend annotierten Bildern gute Ergebnisse liefern. Für komplexe Echtzeit-Anwendungen wie autonomes Fahren werden hingegen Millionen von Beispielen benötigt.

Stand: 20. März 2026