Google DeepMind 高管：每一家 AI 产品公司都应构建定制基准

2026-04-27 04:13:26

Gate News 消息，4月27日——Google DeepMind 高级产品经理、Google AI Studio 产品负责人 Logan Kilpatrick 在 X 上表示，所有构建基于 AI 的产品的公司都应建立各自的定制基准，以衡量 AI 模型的性能。他将其描述为一种方法，用于让模型改进“对贵公司产生不成比例的收益”，并敦促创始人和商业领袖“从明天开始。”

目前，大多数公司依赖公开排行榜来选择 AI 模型，但这些榜单衡量的是通用能力，往往与特定业务场景不匹配。Kilpatrick 举例称，一家合同审查公司最关心的是条款提取的准确性——而这项能力在公开基准中缺失，导致无法评估模型在该任务上的表现。定制基准具有两项关键优势：首先，它们使公司能够针对自身业务任务评估每一次模型更新，并选择在实际使用场景中表现最佳的模型，而不是选择总体排名最高的模型；其次，它们允许公司将这些测试集与模型提供方共享，从而在与业务相关的领域推动持续优化。

Kilpatrick 指出，像 Zapier 和 Sierra 这样的公司已经在采用这种做法，并表示“这里可以创造出大量的 α（超额收益/优势）。”

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

04-27 03:21

يتعاون OpenAI مع MediaTek وQualcomm لتطوير معالج هاتف ذكي يعمل بالذكاء الاصطناعي، وستبدأ Foxconn Connector الإنتاج في 2028

04-27 01:13

Sam Altman 概述 OpenAI 的五条运营原则，暗示可能因安全而对模型能力访问实施未来限制

04-24 12:21

المؤسس المشارك لـ NeoSoul، كايلان: ينبغي أن تسمح صناعة الذكاء الاصطناعي بوجود الألعاب، وغالبًا ما تبدأ الابتكارات كمنتجات تجريبية

04-24 09:01

Xpeng、小米在北京车展引领车载AI浪潮

04-24 08:13

OpenAI 工程师 Clive Chan 挑战 V4 硬件建议，称其相较 V3 存在错误与模糊之处

تحليل متعمق

MediaTek يحصل على صفقة كبيرة من Google للجيل الثامن من TPU! يساهم نمو ASIC في الاستفادة من ثلاث فئات من الأسهم ذات الصلة

ChainNewsAbmedia04-27 03:57

جيه بي مورجان: ستؤدي عملية التوكَنَة إلى تحويل صناعة الأموال، لكن “حالات الاستخدام الجيدة” ستستغرق سنوات قبل ظهورها

Crypto Frontier04-26 16:19

يمكن لوكلاء الذكاء الاصطناعي الآن إعادة إنتاج المقالات الأكاديمية المعقدة بشكل مستقل: مولّيك يقول إن الأخطاء غالبًا ما تكون في النص الأصلي البشري وليست في الذكاء الاصطناعي

ChainNewsAbmedia04-26 03:34

تعليق

0/400

لا توجد تعليقات