✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
无聊AI的理由
AI基准竞赛有了赢家。只是赢家不是你。
每隔几个月,就会有一个新模型上线,新的排行榜就会洗牌。各实验室彼此较劲,比谁想得更深、更会写代码、更能给出更好的答案——在那些旨在衡量机器智能的测试上。报道会跟上。资金也会跟上。
但人们较少关注的是:这一切是否真的不可避免。基准测试、军备竞赛、把AI叙事为“救赎”或“灾难”——这些都是选择,而不是物理定律。它们反映的是行业决定把什么作为优化目标,以及决定为什么提供资金。那些需要几十年才能以普通、实用的方式落地的技术,本季度不会带来数十亿美元的投入。极端叙事才会。
一些研究人员认为,这个目标本身就错了。并不是说AI不重要,而是说“重要”不必意味着“前所未有”。印刷机改变了世界。电力也改变了世界。两者都是逐步完成的——通过混乱的采用过程,让社会有时间作出回应。如果AI也遵循这种模式,那么正确的问题就不该围绕“超智能”。而应当是:谁会受益,谁会遭受伤害,我们正在构建的工具是否真的适用于使用它的人。
不少研究人员一直在从非常不同的方向追问这些问题。以下是其中三位。
有用的,而非通用的
Ruchir Puri 自从大多数人还没听说机器学习之前,就一直在IBM $IBM -0.68% 做AI相关工作。他看着Watson在2011年击败了世界上最优秀的Jeopardy(智力竞赛)选手。自那以后,他也见证了多轮“热潮”从高峰回落、再卷土重来。当当前这一波到来时,他给它做了一个简单测试:它是否有用?
不够令人印象深刻。也不通用。有用。
“我其实并不怎么关心通用人工智能(AGI),”他说。“我关心的是其中有用的部分。”
这种表述让他与业界很大一部分的自我形象产生了冲突。那些冲向AGI的实验室正在为“广度”进行优化,构建能够做任何事、回答任何问题、对任何事情进行推理的系统。Puri认为这才是错误的目标,而且他有一个基准,希望看到行业真正去尝试达到它。
人脑的体积是1,200立方厘米,消耗20瓦特——相当于一个灯泡的能量——而正如Puri指出的那样,它靠三明治运转。单块Nvidia $NVDA +0.26% GPU 消耗1,200瓦特,比整个大脑高出60倍,而如果要做任何有意义的事情,你就需要成千上万块GPU,放在巨大的数据中心里。若以大脑作为基准,那么这个行业离高效还差得很远。它正在走向错误的方向。
他的替代方案是他所称的“混合架构”:让小型、中型和大型模型彼此协同工作,并分别被指派去完成各自最擅长的任务。大型前沿模型负责复杂推理和规划。更小的、为特定目的而设计的模型负责执行。像起草一封邮件这样简单的任务,并不需要一个在互联网上一半内容上训练出的系统。它需要的是:快速、便宜、而且聚焦。Puri指出:大约每九个月,上一代的小型模型就会在某种程度上接近当时被认为“足够大”的水平。智能正在变得更便宜。问题在于:是否有人正在为这种现实进行建设。
这种做法有现实世界的支撑。Airbnb $ABNB -1.45% 用更小的模型来更快地解决相当一部分客户服务问题,速度甚至比它的人类代表还快。Meta $META +0.35% 不用它最大的一批模型来投放广告,而是把在这件事上学到的知识蒸馏进更小的、专门为该任务打造的模型中。这个模式足够一致,以至于研究人员开始把它称为“知识装配流水线”:数据流入,专门化的模型处理离散步骤,最后有用的东西从另一端产出。
IBM构建这条“装配流水线”的时间比大多数公司都更久。由多家公司模型组合而成的混合型智能体,已在大型工程团队中展示了45%的生产力提升。由更小、更专用的模型驱动的系统,如今正在帮助那些负责处理全球84%金融交易的工程师,及时获得正确的信息。这些并非花哨的应用,它们也没有在关键处掉链子。
它们没有任何一个需要能够写诗,或解决你孩子数学作业的系统。它们需要更窄的能力,因此也更可靠。训练来做一件事很好的模型,会知道问题何时超出自己的能力范围。它会这么说。那种经过校准的不确定性——知道自己不知道什么——正是大型前沿模型仍然难以做到的点。
“我想为这些流程构建智能体和系统,”Puri说。“不是那种能回答两百万件事的东西。”
工具,而非智能体
Ben Shneiderman有一个简单测试,用来判断一个AI系统是否设计得足够好。使用它的人是觉得自己做了点什么,还是觉得像是“某种东西替我做了点什么”?
这个区分比听起来更重要。Shneiderman是马里兰大学的一名计算机科学家,他帮助奠定了现代界面设计的基础。他已经花了几十年时间论证:技术的目标应该是增强人的能力,而不是取代它。好的工具会构建他所说的“用户自我效能”(user self-efficacy),也就是你知道自己能做成某事时产生的信心。差的工具会悄悄把这种能动性转移到别处。
他认为,大多数AI行业正在打造糟糕的工具,而且“智能体化(agentic turn)”只会让情况更糟。AI智能体的卖点是:它们会代表你行动,把任务从头到尾处理掉,而不需要你参与。对Shneiderman来说,这不是一个功能。那是问题所在。出了问题(而且一定会出问题)时,谁负责?事情进展顺利时,谁学到了任何东西?
他一直在对抗的那个陷阱有个名字。拟人化(Anthropomorphism),也就是让技术看起来更像人类的冲动,正是它屡战屡胜、却屡屡失败的原因。20世纪70年代,银行曾尝试用自动取款机(ATM)来“迎接”顾客,用“我能帮你什么吗?”之类的话,并给自己起诸如Tilly the Teller(蒂莉出纳员)和Harvey the World Banker(哈维环球银行家)这样的名字。后来它们被会给你展示三个选项的机器取代:余额、取现、存款。使用率飙升。花旗银行的使用率比竞争对手高出50%。人们并不想要一种合成出来的关系。他们想要的是拿回自己的钱。
这种相同的模式在几十年间不断重复:从Microsoft $MSFT -0.16%的Bob、Humane的AI别针,到一波波类人机器人。每一次,拟人化的版本都会失败,然后被更像“工具”的东西取代。Shneiderman把这称为“僵尸理念”。它不会死,只会不断回来。
现在不同的是规模和复杂度。他承认,当前这一代AI确实令人印象深刻,甚至“出奇地”令人印象深刻。但“令人印象深刻”和“有用”并不是同一件事,而且那些被设计得要显得像人、要说“我”、要模拟关系的系统,正在为错误的质量进行优化。他希望设计者问的更简单的问题是:这会给人们更多力量,还是更少?
“AI里没有‘我’,”他说。“至少不该有。”
人,而不是基准
Karen Panetta对为什么AI开发会变成今天这样,有一个简单答案。追随资金的流向。
Panetta是塔夫茨大学(Tufts University)电气与计算机工程的教授,也是IEEE院士。她研究AI伦理,并且清楚知道这项技术应该走向哪里。她举例说:为阿尔茨海默患者提供辅助宠物,为有不同认知风格的儿童提供自适应学习工具,为选择原地养老的老年人提供智能家居监测。她认为,能把这些做好的技术在很大程度上已经存在了。问题在于,没有相应的投资。
“人类不在乎基准,”她说。“他们在乎的是:当我买下它时它是否真的能用;以及它到底能不能真正让我生活变得更轻松?”
问题在于,那些从设计良好的辅助AI中获益最多的人群,同时也是最难打动风险投资人的“提案”。一个能改变制造流程、减少工作场所伤害、并为公司员工降低医疗成本的系统,回报显而易见。一个能够让阿尔茨海默患者保持冷静、保持连接的机器人伙伴,则需要完全不同的数学计算。所以钱就流向钱会流向的地方,而最有可能从中受益的人群却继续等待。
Panetta说,改变在于:那些昂贵的工程难题终于开始在规模化条件下被解决了。传感器更便宜。电池更轻。无线通信协议到处都是。构建工厂车间用工业机器人所做的那笔投入,已经悄悄让消费级机器人变得可行——而在五年前它还不行。从仓库到客厅的路径,比看起来更短。
但她担心的是:围绕这场转变的兴奋常常会跳过一些关键点。实体机器人有天然的约束条件。你知道力的上限。你知道运动学参数。你可以预判、模拟,并围绕它们可能如何失败来进行设计。生成式AI并不带有这些保证。它是不确定的。它会幻觉。没人完全弄清楚,当你把它放进一个对家里有痴呆症患者的家庭、或对一个无法识别何时出了问题的孩子来说的、物理上真正存在的系统中时,会发生什么。
她见过传感器变脏后会怎样:机器人失去了空间感知能力。她也思考过:构建一种能学习一个人生活中亲密细节的东西意味着什么——包括他们的日常、他们的认知状态、他们困惑的时刻——然后再在没有人为介入的情况下对这些信息进行自主行动。她说,故障保护机制(fail-safes)跟不上。
“我不担心机器人,”她说。“我担心的是AI。”
📬 订阅《每日简报》
我们提供免费的、快速且有趣的全球经济简报,每个工作日清晨推送。
注册我