Flujo de trabajo de seguridad de IA de código abierto de Anthropic: siete etapas para detectar vulnerabilidades automáticamente, verificar y generar parches

Anthropic ha abierto una línea de producción de seguridad automática impulsada por Claude, que abarca desde la búsqueda de vulnerabilidades, múltiples verificaciones hasta la generación de parches, todo coordinado por IA. Cualquier equipo de seguridad ahora puede implementarla por sí mismo.
(Resumen previo: Anthropic: el modelo "Mythos Preview" supera a expertos humanos en capacidad de decisión, con una tasa de éxito del 64%)
(Información adicional: Bloomberg revela que Claude Mythos ha sido accedido sin autorización! La brecha más difícil de defender para Anthropic siempre será "la gente")

Índice de este artículo

Alternar

  • Siete etapas, una línea de producción autoverificante
  • Dos caminos, una sola opción
  • La misma herramienta está poniendo al descubierto la muralla

Claude Opus de Anthropic, en el último tiempo, ha detectado cientos de vulnerabilidades en numerosos repositorios de software de código abierto, vulnerabilidades que "a pesar de haber sido revisadas por expertos durante años, nunca fueron detectadas", evidenciando los límites estructurales de la revisión humana.

Recientemente, Anthropic ha abierto todo este sistema de búsqueda automática de vulnerabilidades, verificación múltiple y generación final de parches en GitHub, permitiendo que cualquier equipo de seguridad pueda implementarlo, personalizarlo y adaptarlo a su propio código objetivo.

Siete etapas, una línea de producción autoverificante

Todo el sistema se llama Defending Code Reference Harness, y su núcleo es una línea de producción automatizada de siete etapas:

Build (Construcción), Recon (Reconocimiento), Find (Encontrar vulnerabilidades), Verify (Verificar), Dedupe (Eliminar duplicados), Report (Informe), Patch (Parche). Cada etapa cuenta con un agente de IA independiente, que solo transmite la mínima información necesaria, evitando que las etapas posteriores se vean contaminadas por juicios subjetivos de las anteriores.

La etapa Build compila el software objetivo en una imagen con un detector ASAN. ASAN, que significa AddressSanitizer, es básicamente un "detector de minas" para vulnerabilidades de memoria: si durante la ejecución se accede a memoria ilegal, se activa una alerta inmediatamente. Esta imagen se comparte en todas las etapas posteriores, asegurando que cada agente vea exactamente el mismo entorno de código.

La etapa Find es el motor del sistema. N agentes de IA en paralelo trabajan en contenedores aislados, leyendo el código fuente y generando entradas maliciosas. Este método, en términos sencillos, es fuzzing: alimentar al programa con datos extraños, deformes o fuera de límites, para ver si se bloquea.

Solo cuando un agente detecta una caída del sistema que puede reproducir de forma estable tres veces, envía esa vulnerabilidad, con el fin de filtrar falsos positivos. Los falsos positivos, en términos simples, son comportamientos normales que se confunden con vulnerabilidades, y son la crítica más frecuente a las herramientas de seguridad.

Anthropic enfatiza que el sistema usa múltiples mecanismos de verificación para que cada reporte de vulnerabilidad tenga una puntuación de confianza y una gravedad asociadas.

Luego viene Verify. Un agente completamente nuevo en un contenedor independiente vuelve a ejecutar el proof-of-concept (PoC), que es el "mínimo código ejecutable" que demuestra la existencia de la vulnerabilidad. Solo los bytes originales del PoC circulan entre los contenedores, y el agente de verificación no conoce el proceso de razonamiento del agente anterior, garantizando que las conclusiones sean verdaderamente independientes.

En la etapa Report, se genera un análisis completo de la explotabilidad de cada vulnerabilidad, y un agente de evaluación independiente revisa si los argumentos en el informe corresponden a líneas de código y resultados reales. Antes de generar un parche candidato en la etapa Patch, el sistema requiere confirmación manual para su aplicación.

Toda la línea de producción corre sobre un sandbox gVisor. gVisor es una tecnología de virtualización ligera que aísla en el núcleo del sistema operativo; sin importar qué código ejecute la IA en los contenedores, no puede acceder al sistema de archivos del host, y su salida de red solo está abierta a la API de Claude, sin filtrar datos hacia afuera.

Dos caminos, una sola opción

Este sistema ofrece dos rutas de uso, con niveles de complejidad muy diferentes, y Anthropic recomienda comenzar por la más sencilla.

Primera: habilidades interactivas (Interactive Skills). Solo cuatro comandos:

git clone https://github.com/anthropics/defending-code-reference-harness cd defending-code-reference-harness claude /quickstart

Ejecutar /quickstart te guiará por todo el proceso interactivo en el objetivo de demostración: modelado de amenazas → escaneo estático de vulnerabilidades → clasificación y eliminación manual → generación de parches. No requiere entorno de contenedor, ideal para entender el flujo antes de decidir si automatizar.

Segunda: línea de producción automática (Autonomous Pipeline). Requiere instalar gVisor, configurar ANTHROPIC_API_KEY, y ejecutar el proceso completo de siete etapas en un objetivo real, generando informes de vulnerabilidades con puntuaciones de confianza y parches candidatos. En el repositorio de GitHub hay un ejemplo con vulnerabilidades llamado drlibs, recomendable para practicar antes de usar en tu propio objetivo.

La recomendación de Anthropic es: en el primer día, completar todo el proceso interactivo; en el segundo, pasar a la línea automática en un objetivo C/C++; y de tercer a quinto día, usar /customize para adaptar a otros lenguajes o tipos de vulnerabilidad.

Hay una frase importante en los archivos: "Los equipos exitosos resisten la tentación de diseñar una línea de producción perfecta antes de empezar; primero, ponerla en marcha y luego iterar."

La misma herramienta está poniendo al descubierto la muralla

Esta lucha de seguridad ofensiva y defensiva siempre ha sido estructural. Los atacantes solo necesitan encontrar una entrada; los defensores deben cerrar cada rendija.

Targets como GhostScript, OpenSC, CGIF, son proyectos maduros y ampliamente desplegados, pero vulnerabilidades que llevan décadas en ellos permanecen sin ser detectadas por revisión humana, hasta que Claude Opus lee automáticamente el historial de commits, infiere un parche incompleto, rastrea lógica en otros archivos y construye un PoC funcional. Este proceso no es de comparación de reglas, sino de razonamiento.

Anthropic ofrece dos caminos: la versión open source, Defending Code Reference Harness, para equipos que quieren control total, que pueden implementar y personalizar; y Claude Security, una versión comercial totalmente gestionada, sin necesidad de configurar gVisor ni infraestructura.

La versión open source ofrece transparencia y control, la versión gestionada, facilidad de uso sin fricciones. Detrás de ambos caminos, está la estrategia de Anthropic de posicionar las herramientas de seguridad defensiva como infraestructura básica.

La capacidad de encontrar vulnerabilidades, que antes solo tenían las grandes instituciones con recursos para contratar elite red teams, ahora se ha abierto. La línea de producción está en código abierto, y la muralla de asimetría entre atacantes y defensores está siendo atravesada por la misma herramienta desde ambos lados.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado