2026-02-19 07:19:26

我们最近看到一起由Claude Opus 4.6编写的漏洞导致的178万美元的攻击事件。

cbETH的价格为$1 ，而不是2000美元。
不久之后，@OpenAI@推出了EVMbench。简单来说，它是一个评估AI代理与智能合约交互能力的基准测试。

它有3个主要评估模式：
> 检测：分析代理检测漏洞的能力
> 修补：分析代理修复漏洞的能力
> 利用：分析代理利用漏洞的能力
他们的分析显示，最新模型(Opus 4.6、GPT-5.3-Codex等)在利用漏洞方面表现非常出色，但在检测和修补方面较弱。
这正是我在用我自己的代理运行最新模型时所观察到的。在我的代理团队中，我总是包括一个审计代理，它可以获得完整的上下文，主要目标是发现漏洞。
当它发现漏洞时，开发代理可以轻松修复。
但问题是，在10个漏洞中，它可能只找到3个。目前，我们还不能完全依赖代理来正确检测漏洞。
推出这个基准测试是一个非常强有力的举措。我很期待用我的代理进行测试。
需要澄清的是，这不是一个安全扫描器或生产就绪的审计工具。它主要用于衡量AI的能力、比较模型，并提供关于AI在该领域进展的指标。
基本上，这是一个让AI在该领域进行评估和改进的工具，坦白说，我们确实非常需要这个。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

0/400

暂无评论

热门 Gate Fun
查看更多

1
我的人生
我的人生
市值:$0.1持有人数:0
0.00%
2
dog
dog
市值:$2451.72持有人数:1
0.00%
3
TTS
Tung Tung Sahur
市值:$0.1持有人数:1
0.00%
4
MINARA
Minara
市值:$2455.17持有人数:1
0.00%
5
GM
GM
市值:$2455.17持有人数:1
0.00%

我们最近看到一起由Claude Opus 4.6编写的漏洞导致的178万美元的攻击事件。

热门话题

Gate广场发帖领五万美金红包

何时是最佳入场时机

2022以来最大加密资产流出

Gate春节赛马红包嘉年华

我在Gate广场过新年

热门 Gate Fun

我的人生

我的人生

dog

dog

TTS

Tung Tung Sahur

MINARA

Minara

GM

GM

置顶