Google DeepMind Executive: Every AI Product Company Should Build Custom Benchmarks

Gate News message, April 27 — Logan Kilpatrick, senior product manager at Google DeepMind and product lead for Google AI Studio, stated on X that every company building AI-based products should establish its own custom benchmarks to measure AI model performance. He described this as a method to make model improvements “disproportionately benefit your company” and urged founders and business leaders to “start tomorrow.”

Most companies currently rely on public leaderboards to select AI models, but these measure general capabilities that often misalign with specific business scenarios. Kilpatrick cited the example of a contract review company most concerned with clause extraction accuracy—a capability absent from public benchmarks, making it impossible to assess model performance on that task. Custom benchmarks offer two key advantages: first, they enable companies to evaluate each model update against their own business tasks and select the model that performs best in their actual use case rather than the highest-ranked model overall; second, they allow companies to share these test sets with model providers, driving continuous optimization in areas that matter to their business.

Kilpatrick noted that companies like Zapier and Sierra are already implementing this approach, stating that “there is a lot of alpha that can be created here.”

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Greg Brockman d’OpenAI : l’IA passe de la discussion à l’exécution autonome de tâches

Message de Gate News, 27 avril — Greg Brockman, président et cofondateur d’OpenAI, affirme que la prochaine vague d’intelligence artificielle déplacera les utilisateurs de la simple discussion avec des robots IA vers l’attribution de tâches réelles. Cette évolution oblige les entreprises à repenser leurs processus opérationnels et à mettre en place de nouveaux protocoles pour la sécurité, la gestion et les coûts. Brockman soutient que l’IA doit dépasser les interfaces de discussion autonomes et s’intégrer directement aux logiciels d’entreprise existants afin de résoudre les problèmes de manière indépendante. Les modèles récents ont franchi un seuil d’utilité, améliorant la création de présentations, de tableurs et de tâches dans le navigateur avec des instructions minimales. Toutefois, accorder à l’IA cette liberté opérationnelle introduit de nouveaux risques : des erreurs pourraient s’aggraver, passant de l’envoi d’e-mails incorrects à des modifications non autorisées de bases de données. Pour gérer cela, Brockman explique que les employés passeront de l’exécution des tâches à la supervision de flottes d’agents IA, tout en restant responsables pendant qu’ils délèguent les détails opérationnels. Le défi de l’intégration s’étend également à la manière dont les utilisateurs interagissent avec les systèmes d’IA. Les modèles deviennent plus intuitifs, déduisant activement les objectifs de l’utilisateur à partir du contexte plutôt que d’exiger des instructions étape par étape. Brockman souligne que le fossé concurrentiel ne réside pas dans les modèles d’IA individuels, mais dans le système intégré lui-même — comparable à la construction d’une voiture où un moteur supérieur compte peu si le reste du véhicule n’est pas de qualité. OpenAI investit dans l’infrastructure interne et les outils pour développeurs afin de conserver cet avantage. La capacité de calcul et les coûts constituent une autre contrainte critique. À mesure que les agents autonomes se développent, ils exigent d’importantes ressources serveur, créant des tensions entre la baisse des coûts de calcul et la hausse de la demande. Brockman indique qu’OpenAI a réduit ses prix d’une année sur l’autre tout en maintenant des marges positives, mais prévient l’approche d’un « monde de rareté de la puissance de calcul » alors qu’une utilisation intensive des agents se rapproche des limites de débit. La supervision au niveau entreprise est tout aussi essentielle : les départements informatiques doivent conserver une visibilité totale sur tous les agents IA déployés au sein des organisations, en gérant la sécurité, la sûreté et l’observabilité sur des centaines de milliers de déploiements. En contrebalançant ces prévisions optimistes, Gartner a prédit en juin 2025 que plus de 40 % des projets d’IA agentique seront abandonnés d’ici la fin de 2027 en raison de la hausse des coûts et de la valeur commerciale peu claire, et que seulement 15 % des décisions de travail quotidiennes devraient être prises de manière autonome d’ici 2028. De plus, les prix des modèles d’IA ajustés en fonction de la qualité ont chuté de 80 % au cours des deux dernières années, à mesure que des modèles plus petits et plus efficaces ont émergé et que la concurrence s’est intensifiée, ce qui suggère que l’intégration des flux de travail et la gouvernance pourraient devenir plus défendables que la seule capacité brute des modèles.

GateNewsIl y a 6m

B.AI met à niveau l’infrastructure, lance de grandes fonctionnalités de compétences

Message des Actualités Gate, 27 avril — B.AI a annoncé plusieurs avancées en matière de produits et d’écosystème cette semaine. La page d’accueil de BAIclaw a fait l’objet d’une refonte complète visuelle et d’interactions, avec une prise en charge multilingue du site Web étendue à 10 langues, renforçant ainsi son utilisabilité à l’échelle mondiale. Du côté de l’infrastructure

GateNewsIl y a 21m

Pékin exige le retrait de l’interdiction de négocier ! Meta échoue dans l’acquisition de 2 milliards de dollars d’US pour racheter la jeune pousse chinoise d’IA Manus

La Commission nationale chinoise pour le développement et la réforme a officiellement publié une annonce aujourd’hui (27 avril), selon laquelle le « bureau du mécanisme de travail d’examen de la sécurité des investissements étrangers » a pris, « conformément à la loi et aux règlements, une décision d’interdiction d’investissement à l’encontre de l’acquisition par des investisseurs étrangers du projet Manus, et a exigé que les parties concernées annulent cette transaction d’acquisition ». Il s’agit, depuis la mise en œuvre des « Mesures pour l’examen de la sécurité des investissements étrangers » de la Chine, d’un des rares cas ayant eu recours à la plus haute intensité pour traiter la « décision d’interdiction d’investissement » et exiger l’annulation d’une transaction déjà conclue. Meta investit 2 milliards de dollars, pour racheter la application IA la moins chère Retour en arrière au 29 décembre 2025. Meta annonce l’acquisition d’une jeune pousse chinoise d’IA agents nommée Manus, et le marché estime que son prix se situe entre 2 et 3 milliards de dollars. Manus est une IA générale développée par Beijing Butterfly Effect Technology Development, qui, après son lancement le 6 mars 2025, a suscité un vif engouement du jour au lendemain grâce à de très bonnes performances au benchmark GAIA

ChainNewsAbmediaIl y a 35m

Les actions de l’IPO de Xizhi Technology-P bondissent de plus de 360% sur le marché gris, les gains se limitent à 320%

Message de Gate News, 27 avril — Xizhi Technology-P (01879.HK), une société de puces IA cotée à Hong Kong, a vu ses actions bondir de plus de 360% sur le marché gris (dark market) plus tôt aujourd’hui, même si les gains se sont depuis repliés à 320%. Le titre se négocie en avance sur sa cotation officielle en introduction en bourse (IPO) à Hong Kong

GateNewsIl y a 47m

Améliorer la productivité avec l’IA ou réduire les coûts ? Une efficacité multipliée par cent n’a pas entraîné des revenus multipliés par cent, mais personne en Silicon Valley n’ose dire stop.

五源資本合伙人孟醒,近日发表一份关于硅谷考察的报告,提出了一个连他自己都让改变记笔记习惯的判断:硅谷正在进入一个连造浪的人都被浪淹没的阶段。AI 的迭代速度已经从“按月”变成“按週”,连硅谷自己都跟不上自己。 当 AI 把一个团队的生产力放大五倍,你可以减少八成人力以维持原本产出,也可以保持人數做五倍的事。孟醒这次在硅谷的观察,等于是现场给出了答案的初稿:当 100 倍效率没有换来 100 倍营收,当 token 预算逼近人力成本,当蒸汽机还跑不过马车却没人敢停下,硅谷现在选的是“先把速度冲上去再说”。但这条路最终会走到“扩张能力”还是“压缩成本”,目前没有定论。 YC 从领先指标变成落后指标 孟醒今年

ChainNewsAbmediaIl y a 1h
Commentaire
0/400
Aucun commentaire