OpenRouter 融合 API 以一半成本匹配 Claude Fable 5 的性能

DEEPSEEK-4.31%

OpenRouter 于 6 月 12 日推出 Fusion,这是一个服务器端 API,可将提示词并行分发给多个 AI 模型,然后使用评审模型和合成器将各项回复合并为统一答案。该公司声称,该系统能够在大约一半成本下达到 Claude Fable 5 的表现,基于使用 Perplexity 的 DRACO 基准进行测试:在一个预算面板的模型中,得分为 64.7%,而 Fable 5 为 65.3%。该发布距 Anthropic 上周因美国出口管制指令而暂停 Fable 5 和 Mythos 5 很近;该指令援引了一项存在争议的越狱发现。OpenRouter 将 Fusion 定位为替代方案,并称其“以一半价格提供类似 Fable 的智能”。

OpenRouter Fusion 通过多模型面板架构处理提示词

当用户将提示词发送给 Fusion 时,OpenRouter 会并行将其分发给一个模型面板,每个模型都会接收到网页搜索和 bash 工具。随后,评审模型会从每个回复中提取共识要点、矛盾点和盲区。完成这一分析阶段后,合成器——默认是 Claude Opus 4.8——会基于该分析撰写最终答案。整个过程都在服务器端完成。用户可以将自己的模型字符串切换为“openrouter/fusion”以使用默认面板,添加一个 fusion 工具让自己的模型在需要时选择性调用,或在 Fusion 聊天室中无需代码构建自定义面板。

预算 AI 面板在 DRACO 基准上得分 64.7%,对比 Fable 5 的 65.3%

OpenRouter 在 DRACO 上测试 Fusion,这是 Perplexity 的基准,由真实用户的深度研究请求构建而成。Fable 5 搭配 OpenAI 的 GPT-5.5,并由 Opus 进行合成,在 69% 的成绩上登顶。单独的 Fable 得分为 65.3%,不过它的 100 个任务中有 7 个从未运行,因为其自身内容过滤器阻止了它们。预算组合“Gemini 3 Flash + 开源中文模型 Kimi K2.6 + DeepSeek V4 Pro”,经由 Opus 融合与合成,达到 64.7%——超过单独的 GPT-5.5(60%)和单独的 Opus 4.8(58.8%),并且与以大约一半成本获得的 Fable 相差不超过 1 个百分点。将 Opus 4.8 与其自身的一个单独实例配对得分为 65.5%,较单独 Opus 提升了 6.7 个百分点。OpenRouter 表示,该改进中大约四分之三来自合成步骤本身,其余来自真实的模型多样性。

OpenRouter 披露,让面板获得实时网页访问权限可以让模型在搜索结果中展示 DRACO 自身的评分规则;该公司将这种“污染风险”称为巧合而非刻意所为。修复方案只需要一行配置代码,用于在搜索工具中排除基准的托管域名;并且所有公布的数据都反映了清理后的那次运行结果。

Anthropic 在美国出口管制指令后暂停 Fable 5 和 Mythos 5

上周发布 Fable 5 和 Mythos 5 之后不久,一项美国出口管制指令(U.S. export control directive)迫使 Anthropic 在全球范围内对所有外国国民暂停使用这些模型,并援引了一项存在争议的越狱发现。OpenRouter 于 6 月 13 日在 X 上宣布 Fusion,将其定位为替代方案,并承诺“以一半价格提供类似 Fable 的智能”。

OpenRouter 发现 Fusion 在编程与长程任务上的局限

OpenRouter 表示 Fusion 并非完整的 Fable 替代品。DRACO 会跳过长程任务,而据称 Fable 在这方面仍然领先。对于编程,Fusion 的工作方式是:作为一个由编程模型选择性调用的工具,而不是整体性替代。该发布帖的情绪追踪大致呈现约“两比一”的正面分布。AI 研究者 Andrew Trask 称这“比看起来要大得多的事情”,并认为前沿实验室不可能再像以前那样单独拥有前沿。持怀疑态度者则提到糟糕的编程结果、较差的工具调用,以及自 Fable 5 不再可用后缺乏可对比结果的透明度。Fusion 只会在通过 OpenRouter 自身基础设施路由的模型上运行,因此它无法从源头解决出口管制问题。

常见问题

OpenRouter 在 6 月 12 日推出了什么?

OpenRouter 于 6 月 12 日推出 Fusion,这是一个服务器端 API:可将提示词并行分发给多个 AI 模型,然后使用评审模型和合成器将回复合并为统一答案。

Fusion 的预算面板在 DRACO 基准上的表现如何,较 Claude Fable 5 如何?

在 Perplexity 的 DRACO 基准上,Fusion 的预算面板结合 Gemini 3 Flash、Kimi K2.6 和 DeepSeek V4 Pro 得分 64.7%,与单独的 Fable 5 的 65.3% 分数相比落在 1 个百分点以内,且成本大约只有一半。

为什么 Anthropic 暂停了 Claude Fable 5 和 Mythos 5?

Anthropuic 上周在一项美国出口管制指令(U.S. export control directive)的美国出口管制指令之后,暂停了 Fable 5 和 Mythos 5;这影响了全球范围内每一位外国国民的访问。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论