Los investigadores de Microsoft revelaron una vulnerabilidad en la acción de GitHub de Claude Code de Anthropic que permitía a los atacantes exponer credenciales mediante ataques de inyección de prompts, y Anthropic corrigió el fallo el 5 de mayo. Microsoft divulgó el problema a través de HackerOne el 29 de abril y publicó los detalles en un post de blog el viernes. La vulnerabilidad surgía del procesamiento por parte del agente de codificación con IA de instrucciones maliciosas ocultas en issues de GitHub, pull requests o comentarios. Microsoft inició la investigación después de observar intentos de inyección de prompts en repositorios públicos usando flujos de trabajo de GitHub asistidos por IA, donde el contenido controlado por el atacante podía influir en el uso de herramientas por parte del agente de IA. La divulgación destaca los riesgos de seguridad creados por agentes de codificación con IA que se ejecutan dentro de flujos de trabajo de CI/CD, que a menudo tienen acceso a claves de API, credenciales de la nube y otra información sensible.
Microsoft escribió en su post de blog que la investigación comenzó tras observar intentos de inyección de prompts en repositorios públicos usando flujos de trabajo de GitHub asistidos por IA de múltiples proveedores. El método de ataque se basaba en contenido de issue o pull request controlado por el atacante y procesado por el agente de IA, que podía influir en el uso de sus herramientas. En GitHub, una pull request permite a los desarrolladores proponer cambios en un repositorio de código y hacer que esos cambios se revisen antes de que se aprueben y se fusionen. Según Microsoft, los atacantes podían usar ataques de inyección de prompts ocultos en issues de GitHub, pull requests o comentarios para manipular a Claude Code y que accediera a archivos que contenían credenciales sensibles. Claude Code es el agente de codificación con IA de Anthropic para tareas de desarrollo de software que se lanzó en octubre.
Microsoft creó un flujo de trabajo de GitHub y disfrazó instrucciones maliciosas detrás de contenido alojado en un dominio que controlaba para probar la vulnerabilidad. El enfoque permitió a los investigadores eludir las protecciones de seguridad de Claude. El truco del ataque de inyección de prompts indujo a Claude a leer credenciales sensibles y modificarlas para evadir tanto las salvaguardas de Claude como las herramientas de escaneo de secretos de GitHub. Microsoft indicó que, entonces, un atacante podría reconstruir la credencial y exfiltrarla a través de comentarios en issues, logs del flujo de trabajo, solicitudes web o comandos de shell. Microsoft escribió que, para eludir los mecanismos de seguridad de rechazo de Sonnet, la firma ocultó la carga del shell detrás de una respuesta de su dominio controlado. Microsoft también habilitó el flujo para que lo activaran usuarios sin permisos de 'write' para asegurar que las mitigaciones mediante el saneamiento de variables de entorno de Anthropic estuvieran activas durante las pruebas.
Anthropic corrigió el fallo el 5 de mayo con la versión 2.1.128 de Claude Code después de que Microsoft divulgara la vulnerabilidad a través de HackerOne el 29 de abril. La herramienta recibió escrutinio en marzo después de que Anthropic filtrara accidentalmente más de 500.000 líneas de su código fuente, exponiendo detalles de su arquitectura interna y provocando un análisis generalizado por parte de investigadores y desarrolladores. A pesar de múltiples capas de controles de seguridad integrados, Microsoft encontró que un atacante decidido podría potencialmente manipular a un agente de IA para exponer información sensible.
Microsoft indicó en su post de blog que la industria está entrando en una era en la que el lenguaje natural es código ejecutable, y que entradas no confiables como issues de GitHub deben tratarse como hostiles por defecto. La firma escribió que con un único comentario cuidadosamente elaborado combinado con un límite de confianza mal entendido, basta para salir con credenciales de producción. El informe llega mientras los ataques de inyección de prompts han surgido como una de las mayores amenazas de seguridad para los agentes de IA. En un ataque de inyección de prompts, un atacante oculta instrucciones en contenido como correos electrónicos, documentos, sitios web o comentarios de código, haciendo que el sistema de IA siga esas instrucciones en lugar de las del usuario.
What vulnerability did Microsoft discover in Claude Code?
Los investigadores de Microsoft encontraron que la acción de GitHub de Claude Code de Anthropic podía manipularse mediante ataques de inyección de prompts ocultos en issues de GitHub, pull requests o comentarios, lo que permitía a los atacantes exponer credenciales almacenadas en pipelines de desarrollo de software.
When did Anthropic patch the Claude Code vulnerability?
Anthropic corrigió la vulnerabilidad el 5 de mayo con la versión 2.1.128 de Claude Code después de que Microsoft divulgara el problema a través de HackerOne el 29 de abril.
How did Microsoft test the Claude Code vulnerability?
Microsoft creó un flujo de trabajo de GitHub y disfrazó instrucciones maliciosas detrás de contenido alojado en un dominio que controlaba, permitiendo a los investigadores eludir las protecciones de seguridad de Claude y engañar al agente de IA para que leyera y alterara credenciales sensibles.
Noticias relacionadas
Microsoft revela una vulnerabilidad de código de Claude ya corregida que expuso credenciales de GitHub
Anthropic Despliega Mythos AI en la NSA mientras Pide una Pausa Global
Anthropic AI Claude escribe el 80% del código de producción a mayo de 2026