Anthropic acaba de lanzar Claude Opus 4.7 — su modelo más potente de acceso público hasta la fecha. Y en la tabla comparativa mostraron también Claude Mythos Preview — un "monstruo" interno que aún no se distribuye a todos (debido a sus potentes capacidades cibernéticas).

La programación orientada a agentes (es lo más importante para los desarrolladores)
SWE-bench Pro (resuelve tareas reales complejas de corrección de errores):
Mythos Preview — 77.8% | Opus 4.7 — 64.3% | Opus 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified: Mythos — 93.9% | Opus 4.7 — 87.6% | Opus 4.6 — 80.8%

Es un salto enorme. Mythos casi duplica los resultados de los modelos de 2024–2025 en tareas reales en GitHub.
Terminal-Bench 2.0 (trabajo en terminal, codificación con agentes):
Mythos — 82.0% | GPT-5.4 — 75.1% | Opus 4.7 — 69.4%

Pensamiento multidisciplinario y tareas complejas Humanity’s Last Exam (uno de los exámenes "finales" más duros de la humanidad, multidisciplinar, nivel de posgrado):

Mythos — 56.8% | Opus 4.7 — 46.9% Con herramientas: Mythos — 64.7% | Opus 4.7 — 54.7%
GPQA Diamond (alto nivel de pensamiento científico): Todas las principales modelos alrededor del 94%, Mythos un poco por delante — 94.6%.

Capacidades orientadas a agentes
Uso escalado de herramientas (MCP-Atlas):
Opus 4.7 — 77.3% (líder entre los disponibles)
Uso de computadora con agentes (OSWorld-Verified): Opus 4.7 — 78.0% | Mythos — 79.6%
Búsqueda con agentes (BrowseComp): GPT-5.4 lidera con 89.3%, Mythos — 86.9%
Reproducción de vulnerabilidades en ciberseguridad (CyberGym): Mythos — 83.1% (aquí es especialmente potente)

Pensamiento visual y multimodalidad CharXiv Reasoning: Opus 4.7 sin herramientas — 82.1% | con herramientas — 91.0% Mythos — 93.2% con herramientas.
Preguntas y respuestas multilingües (MMMLU): Opus 4.7 y 4.6 — alrededor del 91%, Gemini 3.1 Pro — 92.6%.

Opus 4.7 es la mejor opción en este momento para la mayoría de tareas:
Mucho mejor que Opus 4.6 en casi todo (especialmente en codificación con agentes, uso de computadoras, razonamiento visual y análisis financiero).
El precio igual: $5 / $25 por millón de tokens.
Disponible para todos a través de Claude, API, Bedrock, Vertex AI, etc.
Mejoras en el trabajo con imágenes de alta calidad (hasta 3.75 MP), nuevo nivel de esfuerzo «extra high», revisión ultra en Claude Code, etc.

Mythos Preview es realmente una bestia — es el siguiente nivel. Domina casi en todos los benchmarks de agentes y tareas complejas. Anthropic lo mantiene en acceso restringido (Project Glasswing), porque el modelo es especialmente fuerte en búsqueda y reproducción de vulnerabilidades en código. En esencia — es un «arma cibernética» de nivel frontera, que aún está en pruebas con salvaguardas reforzadas. Anthropic dice claramente: Opus 4.7 queda atrás de Mythos en casi todos los aspectos, pero es más seguro y ya está disponible para producción.

El año 2026 ya no será solo «chatbots». Vemos agentes reales que pueden trabajar horas en terminal, corregir código real, analizar finanzas y resolver tareas de nivel PhD.
Opus 4.7 ya puede usarse en producción para flujos de trabajo complejos. Mythos, en cambio, indica hacia dónde se dirige la industria en los próximos meses.

¿Quizá este ya sea el futuro?
¿qué opinan? 🤝

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GatePreIPOsLaunchesWithSpaceX
183.93K Popularidad
#
Gate13thAnniversaryLive
646.04K Popularidad
#
IsraelStrikesIranBTCPlunges
30.03K Popularidad
#
AltcoinsRallyStrong
7.31M Popularidad
#
AnthropicvsOpenAIHeatsUp
1.06M Popularidad

Anclado

#GatePreIPOsLaunchesWithSpaceX

Temas de actualidad

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Anclado