Lange galten generative und diskriminative Modelle in der Computer Vision als getrennte Disziplinen. Generatoren erzeugen Bilder, während diskriminative Modelle sie interpretieren. Diese Annahme wird nun von Google DeepMind mit der Vorstellung von „Vision Banana“ in Frage gestellt.
- Google DeepMind vereint mit Vision Banana die Bildgenerierung und die visuelle Analyse in einem einzigen KI-Modell.
- Der Algorithmus löst Analyseaufgaben, indem er die Ergebnisse geschickt als farbcodierte RGB-Bilder anstatt als Rohdaten ausgibt.
- Das System kommt komplett ohne spezifische Benchmark-Trainingsdaten aus und beweist so eine enorme Generalisierungsfähigkeit.
Der Paradigmenwechsel: Vom Bildgenerator zum Allrounder
Ein Forschungsteam von Google DeepMind hat mit Vision Banana ein Modell entwickelt, das sowohl Bilder generieren als auch spezialisierte Systeme in verschiedenen visuellen Analyseaufgaben übertreffen oder zumindest erreichen kann. Dazu gehören semantische und Instanzensegmentierung sowie metrische Tiefen- und Oberflächennormalenschätzung. Die Ergebnisse der Arbeit wurden im Paper „Image Generators are Generalist Vision Learners“ (arXiv:2604.20329) am 22. April 2026 veröffentlicht.
Die Grundlage von Vision Banana ist Googles Bildgenerator Nano Banana Pro (NBP). Durch ein leichtgewichtiges Instruction-Tuning, bei dem ein geringer Anteil an Computer-Vision-Daten in das Training von NBP integriert wurde, konnte Vision Banana geschaffen werden. Die Kernidee dahinter ist, dass die Fähigkeit, realistische Bilder zu erzeugen, bereits ein tiefes Verständnis von Geometrie, Semantik, Tiefe und Objektbeziehungen impliziert. Vision Banana lernt, dieses implizite Wissen in messbaren Formaten zu exportieren.
Interessant ist hierbei, dass für die Evaluation keine Trainingsdaten aus den jeweiligen Benchmarks verwendet wurden. Dies soll die tatsächliche Generalisierungsfähigkeit des Modells unterstreichen und ausschließen, dass es lediglich bereits bekannte Daten wiedererkennt.
Anstatt für jede Aufgabe spezialisierte Decoder oder Regressionsmodule zu entwickeln, werden alle Outputs der Vision-Aufgaben als RGB-Bilder parametrisiert. Das Modell wird so trainiert, dass es Visualisierungen erzeugt, die präzisen, invertierbaren Farbschemata folgen. Diese generierten Bilder können dann für die Benchmark-Bewertung in quantitative Outputs zurückgewandelt werden.
Diese Strategie bietet mehrere Vorteile: Ein einziges Modell kann eine Vielzahl von Aufgaben bewältigen, da nach dem Instruction-Tuning nur noch die Anweisung (Prompt) variiert wird, nicht die Modellgewichte. Zudem ist der Bedarf an neuen Trainingsdaten gering, da das Instruction-Tuning hauptsächlich darauf abzielt, die Computervision-Outputs als RGB zu formatieren. Gleichzeitig behält das Modell seine ursprünglichen Bildgenerierungsfähigkeiten bei, da die Outputs selbst RGB-Bilder sind.
Für Aufgaben wie die semantische Segmentierung wird Vision Banana beispielsweise angewiesen, eine Segmentierungsvisualisierung basierend auf bestimmten Farbzuordnungen zu erstellen. Da die Farbzuweisungen im Prompt spezifiziert sind, ist kein festes Label-Vokabular erforderlich.
❓ Häufig gestellte Fragen
✅ 10 Claims geprüft, davon 8 mehrfach verifiziert
📚 Quellen