Vision Banana від Google: Уніфікована модель зору перевершує спеціалізовані моделі в сегментації та 3D-геометрії

Повідомлення Gate News, 23 квітня — Дослідники Google, зокрема Хе Каймінг і Сіє Сайнгін, опублікували статтю, в якій представили Vision Banana — універсальну модель розуміння зору, створену шляхом легкого інструктивного доопрацювання (instruction fine-tuning) моделі для генерації зображень Nano Banana Pro (Gemini 3 Pro Image) компанії. Ключова інновація уніфікує виходи всіх задач зору як RGB-зображення, даючи змогу виконувати сегментацію, оцінювання глибини та прогнозування нормалей поверхні через генерацію зображень без спеціалізованих архітектур чи функцій втрат.

У семантичній сегментації Vision Banana перевершила спеціалізовану модель SAM 3 на 4,7 відсоткового пункту на Cityscapes; у сегментації за виразом (referring expression segmentation) вона випередила SAM 3 Agent. Однак у задачах сегментації екземплярів вона відставала від SAM 3. Для 3D-завдань метричне оцінювання глибини досягло 0,929 середньої точності на чотирьох стандартних наборах даних, перевищивши 0,918 Depth Anything V3, використовуючи лише синтетичні дані без реальної інформації про глибину або параметрів камери під час інференсу. Оцінювання нормалей поверхні досягло результатів на рівні найсучасніших у трьох внутрішніх бенчмарках.

Доопрацювання передбачало мінімальні дані з задач зору, змішані з початковим тренуванням генерації зображень, що зберегло здатність моделі до генерації — продуктивність відповідала оригінальній Nano Banana Pro в тестах якості генерації. У статті пропонується, що попереднє навчання (pretraining) генерації зображень у візії подібне до попереднього навчання генерації тексту в мові: моделі вчаться внутрішнім представленням, потрібним для розуміння зображень, під час генерації, а інструктивне доопрацювання лише вивільняє цю здатність.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів