Vision Banana от Google: унифицированная модель зрения превосходит специализированные модели в сегментации и 3D-геометрии

Сообщение Gate News, 23 апреля — исследователи Google, включая Хэ Кайминга и Се Сайнина, опубликовали работу, представляющую Vision Banana — универсальную модель понимания изображений, созданную с помощью легкой инструкции по дообучению для уточнения на компании Nano Banana Pro (Gemini 3 Pro Image) модель генерации изображений. Ключевое нововведение унифицирует выходы всех задач компьютерного зрения в виде RGB-изображений, позволяя выполнять сегментацию, оценку глубины и предсказание нормалей поверхности посредством генерации изображений без специализированных архитектур или функций потерь.

В семантической сегментации Vision Banana превзошла специализированную модель SAM 3 на 4,7 процентного пункта на Cityscapes; в сегментации по референсному выражению она обошла SAM 3 Agent. Однако в инстанс-сегментации она уступила SAM 3. Для 3D-задач метрическая оценка глубины достигла 0,929 средней точности на четырех стандартных наборах данных, превзойдя Depth Anything V3 с 0,918, используя только синтетические данные без реальной информации о глубине или параметров камеры на этапе инференса. Оценка нормалей поверхности достигла уровня лучших на сегодняшний день результатов на трех внутренних бенчмарках.

Дообучение включало минимальный объем данных по задачам зрения, смешанный с исходным обучением генерации изображений, сохраняя способность модели к генерации — производительность совпала с оригинальной Nano Banana Pro в тестах качества генерации. В работе предлагается, что предварительное обучение генерации изображений в зрении параллельно предварительному обучению генерации текста в языке: модели учатся внутренним представлениям, необходимым для понимания изображений, во время генерации, а инструкционное дообучение лишь высвобождает эту возможность.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев