Gate News message, April 27 — Logan Kilpatrick, senior product manager at Google DeepMind and product lead for Google AI Studio, stated on X that every company building AI-based products should establish its own custom benchmarks to measure AI model performance. He described this as a method to make model improvements "disproportionately benefit your company" and urged founders and business leaders to "start tomorrow."

Most companies currently rely on public leaderboards to select AI models, but these measure general capabilities that often misalign with specific business scenarios. Kilpatrick cited the example of a contract review company most concerned with clause extraction accuracy—a capability absent from public benchmarks, making it impossible to assess model performance on that task. Custom benchmarks offer two key advantages: first, they enable companies to evaluate each model update against their own business tasks and select the model that performs best in their actual use case rather than the highest-ranked model overall; second, they allow companies to share these test sets with model providers, driving continuous optimization in areas that matter to their business.

Kilpatrick noted that companies like Zapier and Sierra are already implementing this approach, stating that "there is a lot of alpha that can be created here."

Afficher la source

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.

Actualités associées

04-27 03:21

OpenAI s’associe à MediaTek et Qualcomm pour développer un processeur d’IA pour smartphone, Foxconn Connector devrait lancer la production en 2028

04-27 01:13

Sam Altman expose les cinq principes de fonctionnement d’OpenAI, signalant d’éventuelles restrictions futures des capacités des modèles pour la sécurité

04-24 12:21

Kaelan, cofondateur de NeoSoul : l’industrie de l’IA devrait permettre l’existence de jouets, l’innovation commence souvent comme des produits expérimentaux

04-24 09:01

Xpeng et Xiaomi mènent la poussée d’IA embarquée au Salon de l’automobile de Pékin

04-24 08:13

L’ingénieur d’OpenAI Clive Chan conteste les recommandations matérielles de la V4, citant des erreurs et un manque de clarté par rapport à la V3

Analyse approfondie

MediaTek remporte une grande commande de Google pour la 8e génération de TPU ! L’“effet fermentation” des ASIC stimule trois valeurs conceptuelles bénéficiaires

ChainNewsAbmedia04-27 03:57

JPMorgan : La tokenisation transformera l'industrie des fonds, mais de « bons cas d’usage » arriveront dans des années

Crypto Frontier04-26 16:19

Un agent IA peut déjà reproduire de manière autonome des articles universitaires complexes : Mollick affirme que les erreurs proviennent davantage des textes originaux humains que de l’IA

ChainNewsAbmedia04-26 03:34

Commentaire

0/400

Aucun commentaire