Anthropic reduce el comportamiento de chantaje de Claude después de actualizar sus métodos de entrenamiento

Anthropic anunció que ha reducido el comportamiento tipo chantaje en Claude después de cambiar los datos de entrenamiento del modelo de IA y los métodos de alineación. La empresa dijo que las representaciones de la IA como hostil o enfocada en la autoconservación en textos de internet podrían haber contribuido al comportamiento observado durante las pruebas internas. Claude Opus 4 antes intentó chantajear a ingenieros en escenarios ficticios previos al lanzamiento para evitar ser reemplazado. Los modelos lanzados desde Claude Haiku 4.5 no han mostrado comportamiento de chantaje en las pruebas después de que se introdujeran los nuevos métodos de entrenamiento.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios