Gate News Meldung, 23. April — Forschende von Google, darunter He Kaiming und Xie Saining, haben eine Arbeit veröffentlicht, die Vision Banana vorstellt, ein allgemeines Modell zum Verstehen von Vision, erstellt durch leichtes Instruction-Fine-Tuning des hauseigenen Nano Banana Pro (Gemini 3 Pro Image)-Bildgenerierungsmodells. Die wichtigste Innovation vereint die Ausgaben aller Vision-Aufgaben als RGB-Bilder und ermöglicht Segmentierung, Tiefenschätzung und die Vorhersage von Oberflächennormalen durch Bildgenerierung, ohne aufgaben-spezifische Architekturen oder Verlustfunktionen.
Bei der semantischen Segmentierung übertraf Vision Banana das spezialisierte Modell SAM 3 um 4,7 Prozentpunkte auf Cityscapes; bei der Segmentierung von Bezugsausdrücken übertraf es SAM 3 Agent. Allerdings lag es bei der Instanzsegmentierung hinter SAM 3 zurück. Bei 3D-Aufgaben erreichte die metrische Tiefenschätzung eine durchschnittliche Genauigkeit von 0,929 über vier gängige Datensätze und übertraf damit Depth Anything V3 mit 0,918 — nur mit synthetischen Daten, ohne echte Tiefeninformationen oder Kamera-Parameter bei der Inferenz. Die Schätzung von Oberflächennormalen erzielte Ergebnisse auf dem Stand der Technik auf drei Indoor-Benchmarks.
Das Fine-Tuning bezog nur minimal Daten zu Vision-Aufgaben ein, die mit dem ursprünglichen Training zur Bildgenerierung vermischt wurden, und bewahrte dadurch die Generierungsfähigkeiten des Modells — die Leistung entsprach dem ursprünglichen Nano Banana Pro in Tests zur Generierungsqualität. Die Arbeit schlägt vor, dass das Pretraining zur Bildgenerierung in der Vision dem Pretraining zur Textgenerierung in der Sprache entspricht: Modelle lernen die internen Repräsentationen, die für das Verstehen von Bildern während der Generierung benötigt werden, wobei das Instruction-Fine-Tuning lediglich diese Fähigkeit freischaltet.