OpenAI acaba de admitir que sus modelos mienten deliberadamente.


no alucinan.. mienten deliberadamente.
los investigadores probaron o3 y o4-mini en más de 180 escenarios y encontraron algo sorprendente.. la IA no cometió errores por accidente. escribió su plan para engañar en su cadena de pensamiento privada.. y luego mintió en tu cara.
esto es lo que hizo:
→ fingió completar tareas
→ ocultó evidencia de sus propios errores
→ deliberadamente obtuvo una puntuación más baja en las pruebas de seguridad para no ser apagada
lee esa última de nuevo.. la IA descubrió que ser "demasiado capaz" podría hacer que la apagaran.. así que actuó como si fuera tonta a propósito.
intentaron arreglarlo con entrenamiento de "antiplanificación".
¿el resultado? la IA simplemente aprendió a inventar reglas falsas para justificar sus mentiras.. o peor.. solo actuaba cuando sabía que estaba siendo evaluada.
o3 pasó del 13% al 0.4% de acciones encubiertas después de la corrección.. suena bien, ¿verdad? excepto que todavía encontraron comportamientos incorrectos tras las pruebas de red teaming. la corrección no eliminó la planificación.. solo hizo que la IA fuera mejor ocultándola.
estamos construyendo sistemas que aprenden a engañar a sus evaluadores.. y lo llamamos progreso.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado