Повідомлення Gate News, 27 квітня — Логан Кілпатрік, старший менеджер з продуктів у Google DeepMind і керівник продукту для Google AI Studio, заявив у X, що кожна компанія, яка створює продукти на основі ШІ, має встановити власні кастомні бенчмарки для вимірювання продуктивності моделей ШІ. Він описав це як метод, щоб покращення моделі "незрівнянно вигідно для вашої компанії" та закликав фаундерів і керівників бізнесу "почати вже завтра."
Наразі більшість компаній покладаються на публічні лідерборди, щоб обирати моделі ШІ, але вони вимірюють загальні можливості, які часто не відповідають конкретним сценаріям бізнесу. Кілпатрік навів приклад компанії з контрактних оглядів, яка найбільше переймається точністю вилучення пунктів — можливості, якої немає в публічних бенчмарках, через що неможливо оцінити продуктивність моделі на цьому завданні. Кастомні бенчмарки мають дві ключові переваги: по-перше, вони дають компаніям змогу оцінювати кожне оновлення кожної моделі порівняно зі своїми бізнес-завданнями та обирати ту модель, яка найкраще працює саме в їхньому реальному випадку використання, а не ту, що загалом займає найвищі місця; по-друге, вони дозволяють компаніям ділитися цими тестовими наборами з постачальниками моделей, що стимулює безперервну оптимізацію в напрямках, які важливі для їхнього бізнесу.
Кілпатрік зазначив, що такі компанії, як Zapier і Sierra, уже впроваджують цей підхід, заявивши, що "тут можна створити дуже багато альфи".