#GatePreIPOsLaunchesWithSpaceX


Anthropic acaba de lanzar Claude Opus 4.7 — su modelo más potente de acceso público hasta la fecha. Y en la tabla comparativa mostraron también Claude Mythos Preview — un "monstruo" interno que aún no se distribuye a todos (debido a sus potentes capacidades cibernéticas).

La programación orientada a agentes (es lo más importante para los desarrolladores)
SWE-bench Pro (resuelve tareas reales complejas de corrección de errores):
Mythos Preview — 77.8% | Opus 4.7 — 64.3% | Opus 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified: Mythos — 93.9% | Opus 4.7 — 87.6% | Opus 4.6 — 80.8%

Es un salto enorme. Mythos casi duplica los resultados de los modelos de 2024–2025 en tareas reales en GitHub.
Terminal-Bench 2.0 (trabajo en terminal, codificación con agentes):
Mythos — 82.0% | GPT-5.4 — 75.1% | Opus 4.7 — 69.4%

Pensamiento multidisciplinario y tareas complejas Humanity’s Last Exam (uno de los exámenes "finales" más duros de la humanidad, multidisciplinar, nivel de posgrado):

Mythos — 56.8% | Opus 4.7 — 46.9% Con herramientas: Mythos — 64.7% | Opus 4.7 — 54.7%
GPQA Diamond (alto nivel de pensamiento científico): Todas las principales modelos alrededor del 94%, Mythos un poco por delante — 94.6%.

Capacidades orientadas a agentes
Uso escalado de herramientas (MCP-Atlas):
Opus 4.7 — 77.3% (líder entre los disponibles)
Uso de computadora con agentes (OSWorld-Verified): Opus 4.7 — 78.0% | Mythos — 79.6%
Búsqueda con agentes (BrowseComp): GPT-5.4 lidera con 89.3%, Mythos — 86.9%
Reproducción de vulnerabilidades en ciberseguridad (CyberGym): Mythos — 83.1% (aquí es especialmente potente)

Pensamiento visual y multimodalidad CharXiv Reasoning: Opus 4.7 sin herramientas — 82.1% | con herramientas — 91.0% Mythos — 93.2% con herramientas.
Preguntas y respuestas multilingües (MMMLU): Opus 4.7 y 4.6 — alrededor del 91%, Gemini 3.1 Pro — 92.6%.

Opus 4.7 es la mejor opción en este momento para la mayoría de tareas:
Mucho mejor que Opus 4.6 en casi todo (especialmente en codificación con agentes, uso de computadoras, razonamiento visual y análisis financiero).
El precio igual: $5 / $25 por millón de tokens.
Disponible para todos a través de Claude, API, Bedrock, Vertex AI, etc.
Mejoras en el trabajo con imágenes de alta calidad (hasta 3.75 MP), nuevo nivel de esfuerzo «extra high», revisión ultra en Claude Code, etc.

Mythos Preview es realmente una bestia — es el siguiente nivel. Domina casi en todos los benchmarks de agentes y tareas complejas. Anthropic lo mantiene en acceso restringido (Project Glasswing), porque el modelo es especialmente fuerte en búsqueda y reproducción de vulnerabilidades en código. En esencia — es un «arma cibernética» de nivel frontera, que aún está en pruebas con salvaguardas reforzadas. Anthropic dice claramente: Opus 4.7 queda atrás de Mythos en casi todos los aspectos, pero es más seguro y ya está disponible para producción.

El año 2026 ya no será solo «chatbots». Vemos agentes reales que pueden trabajar horas en terminal, corregir código real, analizar finanzas y resolver tareas de nivel PhD.
Opus 4.7 ya puede usarse en producción para flujos de trabajo complejos. Mythos, en cambio, indica hacia dónde se dirige la industria en los próximos meses.

¿Quizá este ya sea el futuro?
¿qué opinan? 🤝
Ver originales
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado