YOLO (You Only Look Once) — PromptLoop Glossar

Was ist YOLO (You Only Look Once)?

YOLO ist ein One-Stage-Detector aus dem Bereich Computer Vision — eine Klasse von Convolutional Neural Networks (CNNs), die Klassifikation und Lokalisierung von Objekten in einem einzigen Durchlauf erledigen. Das ist der entscheidende Unterschied zu Two-Stage-Detektoren wie R-CNN oder Faster R-CNN, die zuerst Regionen vorschlagen und diese anschließend separat klassifizieren. Dieser Zwei-Schritt-Prozess kostet Zeit — Zeit, die in Echtzeit-Anwendungen schlicht nicht zur Verfügung steht. YOLO löst dieses Problem durch direkte Regression: Das Netzwerk sagt in einem Rutsch vorher, wo Objekte sind und was sie sind.

Wie funktioniert YOLO (You Only Look Once)?

YOLO teilt das Eingabebild in ein gleichmäßiges Grid auf. Jede Zelle dieses Grids ist verantwortlich für die Vorhersage einer definierten Anzahl von Bounding Boxes — rechteckigen Rahmen, die ein Objekt einschließen — sowie zugehörige Konfidenzscores und Klassenwahrscheinlichkeiten. Diese drei Informationen werden simultan durch einen einzigen Vorwärtslauf (Forward Pass) berechnet. Die Netzwerkarchitektur gliedert sich in drei Module: Backbone (Feature-Extraktion), Neck (Feature-Aggregation auf verschiedenen Skalen) und Head (finale Vorhersage). Mit YOLOv13 — der aktuellen Iteration — wurde diese Architektur um zwei wesentliche Mechanismen erweitert: Hyper-graph Adaptive Correlation Enhancement (HyperACE) für hochstufige semantische Feature-Fusion sowie Full-Path Aggregation and Distribution (FullPAD) für kreuzmodulare Informationsintegration. Ergänzend kommen depthwise separable Convolutions zum Einsatz, die den Rechenaufwand bei vergleichbarer Genauigkeit deutlich reduzieren. Für unterschiedliche Deployment-Szenarien stehen vier vorskalierte Modellvarianten bereit: Nano, Small, Large und Extra-Large.

YOLO (You Only Look Once) in der Praxis

Ein besonders präziser Anwendungsfall ist die industrielle Qualitätskontrolle in der Halbleiterfertigung: Systeme auf Basis von YOLOv13 — etwa DAS-YOLOv13 mit Dual-Axis Attention-enhanced Multi-Scale Fusion, veröffentlicht im Fachjournal Sensors im März 2026 — erkennen winzige Defekte auf Wafer-Oberflächen in Echtzeit, auch bei stark variierenden Objektgrößen (Small-Object-Detection). Ein zweiter etablierter Einsatzbereich ist die Fahrzeugdetektion in autonomen Systemen und im Verkehrsmanagement, wo die niedrige Latenz des One-Stage-Designs über die Sicherheit von Entscheidungen mitbestimmt. Darüber hinaus findet YOLO breiten Einsatz in Sicherheitskameras und Drohnen-gestützter Überwachung, wo Videodaten in Echtzeit auf relevante Ereignisse wie unerlaubtes Betreten oder Personenansammlungen gescannt werden müssen.

Vorteile und Grenzen

Der offensichtlichste Vorteil ist die Geschwindigkeit: One-Stage-Detektoren wie YOLO übertreffen Two-Stage-Architekturen in der Inferenzzeit deutlich, was Echtzeit-Deployments auf Edge-Hardware erst möglich macht. Die skalierten Modellvarianten (Nano bis Extra-Large) erlauben außerdem eine gezielte Abwägung zwischen Rechenbudget und Genauigkeit. Auf der anderen Seite hat YOLO strukturelle Grenzen: Bei sehr dicht gepackten, kleinen Objekten — etwa einer Menschenmenge aus der Vogelperspektive — stoßen ältere Versionen an ihre Grenzen. Die Grid-basierte Architektur kann pro Zelle nur eine begrenzte Anzahl von Bounding Boxes vorhersagen, was zu Erkennungslücken führt. YOLOv13 adressiert dieses Problem durch verbesserte Multi-Skalen-Fusion, löst es aber nicht vollständig. Zudem erfordert das Training auf eigene Domänen einen sorgfältig kuratierten, annotierten Datensatz — ein Aufwand, der je nach Use Case erheblich sein kann.

❓ Häufig gestellte Fragen

▶ Was unterscheidet YOLO von anderen Objekterkennungsmodellen wie R-CNN?

R-CNN und seine Varianten sind Two-Stage-Detektoren: Sie schlagen zuerst Regionen vor und klassifizieren diese anschließend in einem zweiten Schritt. YOLO ist ein One-Stage-Detector, der Lokalisierung und Klassifikation in einem einzigen Netzwerk-Durchlauf kombiniert. Das macht YOLO deutlich schneller, weshalb es bevorzugt in Echtzeit-Anwendungen eingesetzt wird.

▶ Welche YOLO-Version ist aktuell die neueste?

Stand März 2026 ist YOLOv13 die neueste Iteration. Sie führt unter anderem Hyper-graph Adaptive Correlation Enhancement (HyperACE) und Full-Path Aggregation and Distribution (FullPAD) ein, um semantische Feature-Fusion und kreuzmodulare Informationsintegration zu verbessern.

▶ Wofür wird YOLO konkret eingesetzt?

YOLO wird unter anderem in der industriellen Qualitätskontrolle (z. B. Defekterkennung auf Wafer-Oberflächen), in autonomen Fahrzeugen, im Verkehrsmanagement sowie in Echtzeit-Überwachungssystemen eingesetzt — überall dort, wo eine schnelle, präzise Objekterkennung auf Videomaterial erforderlich ist.

Stand: 29. März 2026