Mensagem do Gate News, 27 de abril — Logan Kilpatrick, gerente sênior de produto na Google DeepMind e líder de produto do Google AI Studio, declarou no X que toda empresa que desenvolve produtos baseados em IA deve criar seus próprios benchmarks personalizados para medir o desempenho dos modelos de IA. Ele descreveu isso como um método para fazer com que as melhorias no modelo "beneficiem desproporcionalmente a sua empresa" e incentivou fundadores e líderes de negócios a "começar amanhã."
A maioria das empresas atualmente depende de leaderboards públicos para selecionar modelos de IA, mas eles medem capacidades gerais que muitas vezes não se alinham aos cenários específicos do negócio. Kilpatrick citou o exemplo de uma empresa de revisão de contratos mais preocupada com a precisão na extração de cláusulas — uma capacidade ausente de benchmarks públicos, tornando impossível avaliar o desempenho do modelo nessa tarefa. Benchmarks personalizados oferecem duas vantagens principais: primeiro, eles permitem que as empresas avaliem cada atualização de modelo em relação às suas próprias tarefas de negócio e escolham o modelo que tem melhor desempenho no caso de uso real, em vez do modelo mais bem classificado no geral; segundo, eles permitem que as empresas compartilhem esses conjuntos de teste com os provedores de modelo, impulsionando a otimização contínua nas áreas que importam para o seu negócio.
Kilpatrick observou que empresas como Zapier e Sierra já estão implementando essa abordagem, afirmando que "há muito alfa que pode ser criado aqui."