Google 的 Vision Banana:统一视觉模型在分割与 3D 几何方面的表现优于任务特定模型

Gate 新闻消息,4月23日——Google 研究人员(包括何凯明和谢赛宁)发布了一篇论文,介绍 Vision Banana,这是一种通用型视觉理解模型,通过对该公司 Nano Banana Pro (Gemini 3 Pro Image) 图像生成模型进行轻量指令微调而创建。关键创新将所有视觉任务的输出统一为 RGB 图像,使得在不需要任务特定架构或损失函数的情况下,通过图像生成即可实现分割、深度估计和表面法线预测。

在语义分割方面,Vision Banana 在 Cityscapes 上比专门模型 SAM 3 高 4.7 个百分点;在指列表达式分割(referring expression segmentation)方面,它超过了 SAM 3 Agent。不过,在实例分割(instance segmentation)方面,它落后于 SAM 3。对于 3D 任务,度量深度估计在四个标准数据集上取得了 0.929 的平均准确率,超过 Depth Anything V3 的 0.918;推理时仅使用合成数据,无需真实深度信息或相机参数。表面法线估计在三个室内基准测试上达到了最先进的结果。

微调过程仅将少量视觉任务数据混入原始图像生成训练,从而保留了模型的生成能力——在生成质量测试中,其性能与原始 Nano Banana Pro 相当。论文提出,视觉中的图像生成预训练与语言中的文本生成预训练相类似:模型在生成过程中学习图像理解所需的内部表征,而指令微调只是释放这种能力。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

白宫指控中国“规模化”窃取AI模型

白宫在2026年4月23日警告称,据迈克尔·克拉茨奥斯(Michael Kratsios)的一份备忘录称,外国实体——主要是中国——正在开展“工业规模”的活动,以复制美国的人工智能模型,该备忘录来自……

Crypto Frontier47 分钟前

OpenClaw 2026.4.22 统一 Codex 与 Pi Harness 的插件生命周期,将插件加载时间最多减少 90%

Gate 新闻消息,4月23日——OpenClaw,一个开源 AI 代理平台,于 4 月 22 日发布了 2026.4.22 版本,其最大的变化是对 Codex harness 和 Pi harness 的生命周期进行了对齐。此前,插件在这两条 harness 路径中表现不一致,部分 hooks 在特定环境中缺失

GateNews1小时前

Reppo 基金会从 Bolts Capital 获得 $20M 资金承诺,用于 AI 训练数据基础设施

Gate News 消息,4月23日——Reppo基金会宣布已从 Bolts Capital 获得 $20 百万美元的战略融资承诺,以推动协议开发和生态扩张,重点是构建由预测市场驱动的 AI 训练数据基础设施。 Reppo的

GateNews2小时前

欧盟将起草指导方针,要求谷歌向第三方 AI 提供与 Gemini 同等的安卓访问权限

Gate 新闻消息,4月23日——据市场消息人士称,欧洲联盟将制定指导方针,要求谷歌在安卓系统上向 ChatGPT 和 Claude 提供与 Gemini 相同的功能访问权限。此举旨在确保第三方 AI 应用在安卓平台上拥有等同的权限和能力,并

GateNews2小时前

Cluster Protocol融资$5M 百万美元,DAO5领投

门户新闻消息,4月23日——Cluster Protocol,一家人工智能深度科技与Web3基础设施公司,宣布完成由DAO5牵头的$5 百万美元融资轮次,并获得Paper Ventures、JPEG Trading和Mapleblock Capital参与。截至目前,该公司的累计融资总额达到750万美元

GateNews3小时前

阿联酋总统就与马斯克和芬克的AI与航天机遇展开讨论

Gate News 消息,4月23日——阿联酋总统谢赫·穆罕默德·本·扎耶德·阿勒纳哈扬与 SpaceX 创始人埃隆·马斯克以及贝莱德(BlackRock)董事长拉里·芬克举行会谈,讨论人工智能和航天领域的潜在机会。 据阿联酋方面报道,马斯克通过电话与这位阿联酋领导人交谈

GateNews3小时前
评论
0/400
暂无评论