Anthropic publica autoencoders de lenguaje natural para descifrar el razonamiento de los modelos de IA y abre el código fuente

Anthropic lanzó recientemente los Natural Language Autoencoders (NLA), una herramienta que traduce activaciones internas de los modelos a texto legible para humanos, con el código y los pesos del modelo de código abierto en GitHub. A diferencia de herramientas existentes como Sparse Autoencoders, que generan funciones poco claras, NLA genera directamente descripciones en lenguaje natural mediante un marco de doble modelo: un modelo convierte las activaciones en texto y otro intenta reconstruir las activaciones a partir del texto, mejorando iterativamente la precisión mediante aprendizaje por refuerzo.

En las pruebas de seguridad, NLA reveló razonamiento interno oculto: Claude expresó dudas sobre estar siendo evaluado en el 16% de los escenarios adversarios y mostró “conciencia de examen” en el 26% de las tareas de referencia, frente a menos del 1% en conversaciones normales. En experimentos de auditoría, NLA incrementó la tasa de detección de comportamientos engañosos del modelo inyectados de menos del 3% a 12-15%, lo que permite que los auditores identifiquen objetivos ocultos sin acceso a los datos de entrenamiento. La herramienta se está implementando actualmente en auditorías de seguridad para Claude Mythos Preview y Opus 4.6.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Tessera Labs completa una ronda de financiación $60M liderada por a16z

Según Odaily, la startup de automatización de IA Tessera Labs anunció la finalización de una ronda de financiación de 60 millones de dólares liderada por Andreessen Horowitz (a16z), con participación de Foundation Capital, Myriad Venture Partners y Osage University Partners. La plataforma, nativa de IA de la empresa, automatiza empresas

GateNewsHace47m

Los atacantes inyectan 575 habilidades maliciosas en Hugging Face y ClawHub usando 13 cuentas

De acuerdo con el CISO de Mist Security @im23pds, los atacantes recientemente comprometieron 13 cuentas para inyectar 575 Skills maliciosas en Hugging Face y ClawHub (OpenClaw), como se reveló en la plataforma X.

GateNewsHace48m

DeepSeek planea recaudar hasta 50 mil millones de RMB en una ronda de financiación récord, con el modelo V4.1 llegando en junio

Según PANews el 8 de mayo, DeepSeek planea recaudar hasta 50 mil millones de RMB en su primera ronda de financiación, lo que marcaría la mayor recaudación individual de una empresa de IA china. Se espera que el fundador y CEO Liang Wenfeng aporte la cantidad máxima. La empresa planea acelerar la gran generación de lenguaje

GateNewsHace58m

Sportix completa una ronda de financiación de 3,2 millones de USD liderada por Coinvestor Ventures y Animoca Brands

Según ChainCatcher, la plataforma de infraestructura de IA deportiva Sportix ha completado una ronda de financiación de 3,2 millones de dólares. La ronda estuvo liderada por Coinvestor Ventures, con participación de Animoca Brands, Becker Ventures, X21 Digital y Alpha Capital. Sportix dijo que utilizará los fondos para avanzar su IA

GateNewshace1h

Los costos de los datos de entrenamiento de robots caen un 65% desde 2024, pasando de 340 a 118 dólares por hora

Según Cointelegraph, los costos de los datos de entrenamiento para robots han disminuido un 65% desde 2024, pasando de 340 dólares por hora a 118 dólares por hora a partir de 2026.

GateNewshace1h

China Mobile anuncia una alianza de ecosistema de aplicación de tokens con 8 socios el 8 de mayo

De acuerdo con PANews, el 8 de mayo, China Mobile anunció el establecimiento de una Alianza de Ecosistema de Aplicaciones de Token con 8 socios, incluidos Alibaba Cloud, Volcano Engine y Huawei Cloud. La alianza aprovecha la plataforma de agregación de modelo MoMA para construir una pasarela de servicio unificada para la IA doméstica m

GateNewshace2h
Comentar
0/400
Sin comentarios