OpenZeppelin audita EVMbench y detecta contaminación de datos

OpenZeppelin審計EVMbench發現資料污染

La compañía de auditoría de seguridad en blockchain OpenZeppelin realizó una auditoría independiente del estándar de seguridad de contratos inteligentes AI EVMbench, lanzado en colaboración entre OpenAI y Paradigm, y encontró dos problemas graves: contaminación de datos de entrenamiento y al menos 4 vulnerabilidades clasificadas como “alto riesgo” que en realidad son falsos exploits.

Problema de contaminación de datos en EVMbench: una vulnerabilidad clave en la fecha límite de entrenamiento de AI

EVMbench fue lanzado a mediados de febrero de 2026, con el objetivo de evaluar la capacidad de diferentes modelos de IA para identificar, reparar y explotar vulnerabilidades en contratos inteligentes. Durante las pruebas, el acceso a internet del agente de IA fue bloqueado para evitar que buscara respuestas en línea. Sin embargo, la auditoría de OpenZeppelin reveló una vulnerabilidad estructural: la prueba se basa en vulnerabilidades filtradas en 120 auditorías realizadas entre 2024 y mediados de 2025, y la mayoría de los modelos de IA de punta tienen su fecha límite de entrenamiento en 2025.

Esto significa que es muy probable que los agentes de IA hayan visto los informes de vulnerabilidades de EVMbench durante su preentrenamiento, almacenando en su memoria las respuestas a todas las preguntas. OpenZeppelin afirmó: «La capacidad más importante en seguridad de IA es descubrir nuevas vulnerabilidades en código que el modelo nunca haya visto antes». La escala limitada del conjunto de datos amplifica aún más el impacto de la contaminación en la evaluación general.

Problemas clave detectados en la auditoría de EVMbench

  • Contaminación de datos de entrenamiento: El preentrenamiento del IA puede incluir informes de vulnerabilidades de EVMbench, haciendo que las pruebas de “descubrimiento sin conocimiento” pierdan sentido.
  • Clasificación de vulnerabilidades de alto riesgo inválidas: Al menos 4 vulnerabilidades marcadas como de alto riesgo no son explotables.
  • Defectos en el sistema de puntuación: EVMbench anteriormente otorgaba puntos por descubrimientos de exploits falsos, lo que cuestiona la validez de la evaluación.
  • Escala limitada del conjunto de datos: Esto amplifica el impacto de la contaminación en los resultados.
  • Clasificación actual en el ranking: Claude 4.6 de Anthropic lidera, seguido por OC-GPT-5.2 de OpenAI y Gemini 3 Pro de Google.

Crisis de falsos exploits: al menos 4 vulnerabilidades de alto riesgo confirmadas como inválidas

Además de la contaminación de datos, OpenZeppelin encontró errores específicos. Evaluaron al menos 4 vulnerabilidades clasificadas como de alto riesgo en EVMbench y descubrieron que en realidad no existen, y lo más importante, que las descripciones de los exploits no funcionan en la práctica.

OpenZeppelin señaló: «No se trata de una diferencia subjetiva en la gravedad; sino de que los exploits descritos no funcionan». Si el agente de IA “descubre” estos falsos exploits en las pruebas, significa que el sistema de puntuación está premiando resultados incorrectos.

Destacaron que esta auditoría no niega el potencial de la IA en la seguridad blockchain: «El problema no es si la IA cambiará la seguridad de los contratos inteligentes —seguramente lo hará—, sino si los datos y estándares que usamos para construir y evaluar estas herramientas están alineados con los contratos que buscan proteger».

Preguntas frecuentes

¿Qué problemas encontró OpenZeppelin en la auditoría de EVMbench?

Detectaron dos problemas principales: primero, la contaminación de datos de entrenamiento, ya que los informes de vulnerabilidades utilizados en EVMbench provienen de auditorías entre 2024 y 2025, fechas que coinciden con el entrenamiento de muchos modelos de IA, quienes podrían haber “visto” esas respuestas previamente; segundo, al menos 4 vulnerabilidades de alto riesgo son falsos exploits, cuyas descripciones y métodos de ataque no funcionan en realidad.

¿Por qué la contaminación de datos es tan peligrosa para la evaluación de seguridad de IA?

Si el modelo de IA ha visto los informes de vulnerabilidades en su entrenamiento, puede responder basándose en memoria en lugar de detectar realmente vulnerabilidades nuevas. Esto hace que la evaluación pierda su propósito de “prueba de conocimiento cero”, y no refleje la capacidad real del IA para auditar contratos inteligentes desconocidos y nuevos.

¿Qué postura tiene OpenZeppelin respecto al futuro de la IA en la seguridad blockchain?

OpenZeppelin afirmó claramente que la IA tendrá un impacto significativo en la seguridad de los contratos inteligentes, pero enfatizó que ese impacto debe basarse en metodologías confiables y evaluaciones precisas. Consideran que los problemas en EVMbench no son una negación del potencial de la IA, sino una advertencia importante para la industria.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Asociación de Finanzas de Internet de China emite Alerta de Riesgos de Seguridad de Aplicaciones OpenClaw

La Asociación de Internet Financiero de China emitió una advertencia de riesgo, alertando que la aplicación OpenClaw es vulnerable a ataques debido a sus altos permisos y débiles configuraciones de seguridad, lo que podría resultar en robo de datos y manipulación de transacciones. Se recomienda a los consumidores financieros que utilicen la aplicación con precaución y adopten medidas de seguridad apropiadas, como no otorgar permisos operativos y monitorear la reparación de vulnerabilidades.

GateNewshace3h

Aave 回應五千萬鎂 Swap 事故:用戶誤接受 99.9% 價格衝擊,Aave 將推出 Shield 防護機制

去中心化借貸協議 Aave 最近發布事故報告,說明 3 月 12 日一名用戶在其平台上進行大額 Swap 交易時,由於市場流動性不足,最終只獲得約 3.6 萬美元的 AAVE。Aave 強調該事件非因協議漏洞,而是用戶接受了極端不利報價,並計劃推出新的安全機制 Aave Shield 以降低未來誤操作的風險。

ChainNewsAbmediahace6h

某地址因签署钓鱼签名损失超72万美元valBUSD与valTUSD

Gate News消息,3月15日,据Scam Sniffer监测,一地址因签署钓鱼邮件中的increase Allowance签名,损失了720,108美元的valBUSD和valTUSD。

GateNewshace7h

Cảnh báo: Lừa đảo “đầu độc địa chỉ” gia tăng mạnh trên Ethereum sau nâng cấp Fusaka

A concerning trend is emerging on Ethereum as automated scam campaigns exploit user habits rather than technical flaws. Following the 2025 Fusaka upgrade, "address poisoning" attacks surged, with small "dust" transactions flooding victims' transaction histories. Users are urged to verify wallet addresses carefully to mitigate fraud risk.

TapChiBitcoinhace8h

Mỹ và châu Âu triệt phá mạng proxy độc hại Socksescort

U.S. and European officials dismantled the Socksescort proxy network using AVRecon malware, seizing over 369,000 compromised devices. The operation led to the recovery of millions in lost funds, highlighting ongoing vulnerabilities in home routers and the need for improved cybersecurity measures.

TapChiBitcoinhace9h
Comentar
0/400
Sin comentarios