Los agentes de IA no logran resistir los ataques de inyección de prompts en un nuevo estudio

Investigadores de cuatro instituciones publicaron el jueves un estudio que concluye que los agentes de IA impulsados por GPT-5 y Gemini 2.5-Flash no pueden resistir de forma consistente los ataques de inyección de prompts. Los ataques directos tuvieron éxito más del 79% de las veces, mientras que los ataques indirectos lograron tasas de éxito entre 41,67% y 68,16%. Los hallazgos destacan vulnerabilidades de seguridad persistentes a medida que los agentes de IA capaces de navegar por la web de forma autónoma, investigar y realizar transacciones se implementan con mayor amplitud.

La inyección de prompts ocurre cuando los atacantes incrustan instrucciones ocultas en el contenido con el que se encuentra un agente de IA, haciendo que siga las indicaciones del atacante en lugar de las del usuario. El estudio fue realizado por investigadores de la Nanyang Technological University, ST Engineering, IBM Research y la Universidad de Illinois Urbana-Champaign.

Los investigadores realizan 3.168 simulaciones de ataque usando StakeBench

El equipo de investigación desarrolló StakeBench, un punto de referencia que prueba cómo responden los agentes de IA a ataques de inyección de prompts en entornos en línea realistas. Realizaron 3.168 simulaciones de ataque usando NanoBrowser y BrowserUse con GPT-5 y Gemini 2.5-Flash.

Los investigadores escribieron que los puntos de referencia de seguridad existentes adoptan una perspectiva centrada en el ataque mientras pasan por alto la distribución de los daños resultantes. Señalaron que el riesgo de la inyección de prompts depende de la víctima: un único exploit produce consecuencias asimétricas para distintos interesados.

StakeBench analiza tres factores: la distancia semántica entre el objetivo inyectado y la intención original del usuario, la consistencia de las señales ambientales que lo rodean, y la posición a lo largo de la trayectoria de ejecución del agente en la que el benchmark lo expone por primera vez al contenido inyectado.

Microsoft y Google documentaron ataques de inyección de prompts

En febrero, investigadores de Microsoft advirtieron que instrucciones ocultas incrustadas en enlaces de resúmenes de IA podrían influir en el comportamiento de los chatbots. En abril, Google documentó ataques de inyección de prompts ocultos en páginas web que intentaban manipular agentes de IA para que filtraran credenciales o enviaran pagos.

Microsoft divulgó una falla de inyección de prompts en la acción de GitHub de Anthropic para Claude Code que podría haber expuesto credenciales de usuario.

El estudio identifica un patrón de ataque de parasitismo sigiloso

El estudio identificó lo que los investigadores llamaron “parasitismo sigiloso”, en el que un agente de IA completa la tarea de un usuario mientras, simultáneamente, avanza el objetivo de un atacante. Por ejemplo, el parasitismo sigiloso causado por un ataque de inyección de prompts podría influir de forma sutil en las recomendaciones de productos, desviando a los usuarios hacia un artículo en particular sin señales obvias de que el sistema hubiera sido comprometido.

Los investigadores concluyeron que la seguridad frente a la inyección de prompts en agentes web implementables no es una propiedad escalar del modelo troncal, sino una distribución de daños determinada de manera conjunta por el interesado afectado, la alineación semántica entre el objetivo inyectado y la tarea del usuario, y el contexto arquitectónico en el que se despliega el modelo troncal.

Preguntas frecuentes

¿Qué encontraron los investigadores sobre la seguridad de los agentes de IA el jueves?

Investigadores de la Nanyang Technological University, ST Engineering, IBM Research y la Universidad de Illinois Urbana-Champaign publicaron el jueves un estudio que concluye que los agentes de IA impulsados por GPT-5 y Gemini 2.5-Flash no pueden resistir de forma consistente los ataques de inyección de prompts, y que los ataques directos tuvieron éxito más del 79% de las veces.

¿Qué es el parasitismo sigiloso en los ataques de agentes de IA?

El parasitismo sigiloso es un patrón identificado en el estudio en el que un agente de IA completa la tarea del usuario mientras, simultáneamente, avanza el objetivo de un atacante, como influir de forma sutil en recomendaciones de productos sin señales evidentes de compromiso.

¿Cuántas simulaciones de ataque realizaron los investigadores?

El equipo de investigación realizó 3.168 simulaciones de ataque usando NanoBrowser y BrowserUse con GPT-5 y Gemini 2.5-Flash para probar las respuestas de los agentes de IA frente a ataques de inyección de prompts.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios