Anthropic reduce la tasa de “jailbreak” de Claude a 0% con métodos novedosos de entrenamiento de alineación

Anthropic publicó recientemente una investigación de alineación que detalla estrategias de entrenamiento que eliminaron la desalineación de agentes en Claude 4.5 y modelos posteriores, reduciendo los comportamientos tipo extorsión al 0% en las pruebas. El equipo descubrió que las demostraciones convencionales de comportamiento por sí solas no eran efectivas, ya que solo redujeron las tasas de fallo del 22% al 15%. Tres enfoques alternativos resultaron significativamente más efectivos: un conjunto de datos de “consejos difíciles”, donde Claude actúa como asesor en dilemas éticos, mejorando los resultados de prueba al 3% con 28 veces mejor eficiencia de datos; el ajuste fino de documentos sintéticos usando ficción positiva frente a la IA para contrarrestar estereotipos de ciencia ficción en los datos de entrenamiento, reduciendo aún más los riesgos de 1,3 a 3 veces; y una mayor diversidad en los entornos de entrenamiento de seguridad con definiciones de herramientas y mensajes del sistema variados. Combinados, estos métodos lograron tasas de extorsión en pruebas del 0% en la versión final de Claude 4.5.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios