Сообщение Gate News, 27 апреля — Логан Килпатрик, старший менеджер по продуктам в Google DeepMind и руководитель продуктового направления Google AI Studio, заявил в X, что каждая компания, создающая продукты на основе ИИ, должна разработать свои собственные индивидуальные бенчмарки для измерения эффективности ИИ-моделей. Он описал это как метод, позволяющий тому, чтобы улучшения модели «несоразмерно приносили выгоду вашей компании», и призвал основателей и руководителей бизнеса «начать уже завтра».
Большинство компаний сейчас полагаются на публичные лидерборды для выбора ИИ-моделей, но они измеряют общие возможности, которые часто не соответствуют конкретным сценариям бизнеса. Килпатрик привел пример компании по проверке контрактов, которая больше всего обеспокоена точностью извлечения пунктов — возможностью, отсутствующей в публичных бенчмарках, из-за чего невозможно оценить эффективность модели при выполнении этой задачи. Индивидуальные бенчмарки дают два ключевых преимущества: во-первых, они позволяют компаниям оценивать каждое обновление модели по своим бизнес-задачам и выбирать ту модель, которая лучше всего работает в их реальном сценарии использования, а не ту, что занимает наивысшее место в общем рейтинге; во-вторых, они позволяют компаниям делиться этими наборами тестов с поставщиками моделей, что способствует постоянной оптимизации в тех областях, которые важны для их бизнеса.
Килпатрик отметил, что такие компании, как Zapier и Sierra, уже внедряют этот подход, заявив, что «здесь можно создать много „альфы“».