Vision Banana de Google: un modelo de visión unificado que supera a los modelos específicos de tareas en segmentación y geometría 3D

Mensaje de Gate News, 23 de abril — investigadores de Google, incluidos He Kaiming y Xie Saining, publicaron un artículo que presenta Vision Banana, un modelo general de comprensión visual creado mediante un ajuste fino ligero de instrucciones del modelo de generación de imágenes Nano Banana Pro (Gemini 3 Pro Image) de la empresa. La innovación clave unifica las salidas de todas las tareas de visión como imágenes RGB, lo que permite segmentación, estimación de profundidad y predicción de normales de superficie mediante generación de imágenes sin arquitecturas ni funciones de pérdida específicas de cada tarea.

En segmentación semántica, Vision Banana superó al modelo especializado SAM 3 en 4.7 puntos porcentuales en Cityscapes; en segmentación por expresiones referenciales, superó a SAM 3 Agent. Sin embargo, quedó por detrás de SAM 3 en la segmentación de instancias. Para tareas 3D, la estimación métrica de profundidad logró una precisión media de 0.929 en cuatro conjuntos de datos estándar, superando el 0.918 de Depth Anything V3, usando solo datos sintéticos sin información real de profundidad ni parámetros de cámara durante la inferencia. La estimación de normales de superficie logró resultados de vanguardia en tres benchmarks del interior.

El ajuste fino implicó un conjunto mínimo de datos de tareas de visión mezclado en el entrenamiento original de generación de imágenes, preservando las capacidades de generación del modelo: el rendimiento coincidió con el Nano Banana Pro original en pruebas de calidad de generación. El artículo propone que el preentrenamiento de generación de imágenes en visión es análogo al preentrenamiento de generación de texto en lenguaje: los modelos aprenden las representaciones internas necesarias para la comprensión de imágenes durante la generación, y el ajuste fino de instrucciones solo libera esta capacidad.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios