На этой неделе Microsoft Research выпустила Fara1.5 — открыто-весовую модель ИИ для задач веб-сёрфинга, которая превзошла Operator от OpenAI и Computer Use от Google Gemini 2.5 на отраслевых бенчмарках. Fara1.5-27B набрала 72% в Online-Mind2Web по сравнению с 58,3% у OpenAI Operator и 57,3% у Gemini 2.5 Computer Use. Выпуск отражает сдвиг в конкурентном ландшафте агентных систем для работы с компьютером — ИИ-систем, которые читают экраны браузера и выполняют действия вроде кликов, прокрутки и ввода текста без необходимости специальных плагинов. В отличие от проприетарного, облачного Operator от OpenAI (запущен в январе 2025 года за $200 в месяц, а затем закрыт в августе) и предложения Google, Fara1.5 имеет открытый исходный код и публично выпущенные веса. Microsoft добилась такой производительности, пересмотрев весь процесс разработки — от генерации данных и целей обучения до дизайна модели и оркестрации.
Характеристики модели и доступность
Fara1.5 поставляется в трёх размерах: 4 миллиарда, 9 миллиардов и 27 миллиардов параметров — все построены на Qwen 3.5, базовой модели Alibaba, которую Microsoft дообучила специально для браузерной работы. Fara1.5-9B, средний вариант, набрала 63,4% в Online-Mind2Web — это впереди и решений OpenAI, и предложений Google. Модель на 9 миллиардов параметров уже работает в Azure AI Foundry, а варианты на 4 миллиарда и 27 миллиардов поступят вскоре.
Результаты бенчмарков
Online-Mind2Web — основной бенчмарк — проверяет, как часто ИИ-агент корректно выполняет 300 разнообразных задач из реального мира на 136 популярных живых сайтах, включая сравнение продуктов, заполнение форм и бронирование услуг. Оценка отражает задачи, завершённые правильно на реальном, постоянно меняющемся интернете.
На WebVoyager — втором бенчмарке, измеряющем успех задач в живом вебе — Fara1.5-27B достигла 88,6%, обойдя OpenAI Operator (87,0%) и опередив H Company’s Holo2 (на 30 миллиардов параметров) с 83,0%.
С открытым исходным кодом конкуренты набрали меньше: GUI-Owl-1.5 от Alibaba (8 миллиардов параметров) — 48,6%, а MolmoWeb от AI2 — 35,3%. Предыдущая модель Microsoft, Fara-7B, набрала 34,1% — то есть Fara1.5-27B почти удвоила результат своего предшественника при сопоставимом размере. Navigator n1 от Yutori — главный проприетарный альтернативный вариант — достиг 64,7%.
Методология обучения
Microsoft использовала FaraGen1.5 для генерации обучающих данных, применяя GPT-5.4 — модель OpenAI — в качестве «учительского агента», чтобы показать, как выполнять задачи в браузере. Эти демонстрации стали обучающими данными для Fara1.5.
Команда также создала шесть полностью функциональных реплик реальных сайтов, включая почтовые клиенты, календари и маркетплейсы. Такое синтетическое доменное обучение дало модели возможность практиковать задачи, требующие входа или необратимых действий, не получая доступ к реальным аккаунтам, улучшив качество на «запертых» задачах.
Безопасность и контроль пользователя
Каждая модель рассчитана на то, чтобы останавливать выполнение и спрашивать перед совершением необратимых действий. Fara1.5 работает через MagenticLite — песочничную среду браузера, которая логирует каждое действие и позволяет пользователям останавливать агента в любой момент. Как отметил Yash Lara, Senior PM Lead в Microsoft Research: «Балансирование надёжных защитных мер, таких как Critical Points, с бесшовными пользовательскими сценариями — ключевой момент. Наличие UI, как у Magentic-UI от Microsoft Research, жизненно важно, чтобы давать пользователям возможность вмешиваться при необходимости, а также помогать избежать усталости от утверждений».
Дальнейшее расширение
Microsoft заявила о планах расширить Fara1.5 за пределы браузера — на настольные и корпоративные приложения для бизнеса.