OpenAI lanza GPT-Realtime-2: introduce el razonamiento de GPT-5 en agentes de voz y eleva el contexto a 128K

OpenAI el 7 de mayo (hora de EE. UU.) anunció en una conferencia para desarrolladores tres nuevos modelos de voz Realtime: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, todos disponibles para desarrolladores a través de la Realtime API. El anuncio oficial de OpenAI explica que GPT-Realtime-2 es el primer modelo de voz de OpenAI con capacidades de razonamiento de nivel GPT-5, capaz de razonar en tiempo real en conversaciones de voz, llamar herramientas, procesar correcciones y mantener un ritmo de conversación natural.

GPT-Realtime-2: el context sube de 32K a 128K, con intensidad de razonamiento ajustable en cinco niveles

Las principales mejoras de GPT-Realtime-2:

Ventana de context: de 32K a 128K tokens

Intensidad de razonamiento ajustable: minimal, low, medium, high y xhigh, en cinco niveles

Prueba Big Bench Audio: high logra 96,6%, mientras que el predecesor GPT-Realtime-1.5 es 81,4%

Cumplimiento de instrucciones de Audio MultiChallenge: xhigh razona 48,5%, frente al 34,7% del predecesor

Un context más grande y la posibilidad de ajustar la intensidad de razonamiento permiten a los desarrolladores cambiar entre “barato y rápido” y “pensamiento profundo” según el escenario: un servicio de atención simple puede usar el modo minimal para controlar costos, mientras que tareas complejas se derivan a xhigh para obtener una calidad de razonamiento de nivel GPT-5.

En paralelo, se publican dos modelos especializados: Translate para traducción entre idiomas y Whisper para transcripción en tiempo real.

En esta tanda de tres modelos, la división de roles es:

GPT-Realtime-Translate: traducción de voz multilingüe en tiempo real, admite 70 idiomas de entrada y 13 idiomas de salida

GPT-Realtime-Whisper: transcripción en streaming de baja latencia, genera texto mientras se habla, adecuado para subtítulos en tiempo real, actas de reuniones y transcripciones palabra por palabra de clases

GPT-Realtime-2: agente de conversación completa, con razonamiento, uso de herramientas y ejecución de acciones

Translate y Whisper están especializados para aplicaciones de voz específicas: la traducción y la transcripción son más sensibles a latencia y costos que una conversación general; por eso, usar modelos independientes permite optimizar métricas respectivas.

Precios: GPT-Realtime-2 cuesta 32 dólares por cada millón de entradas y 64 dólares por cada millón de salidas

Estructura de precios de los tres modelos:

GPT-Realtime-2: 32 dólares por cada millón de entradas de voz, 0,40 dólares por entradas cached y 64 dólares por cada millón de salidas

GPT-Realtime-Translate: 0,034 dólares por minuto

GPT-Realtime-Whisper: 0,017 dólares por minuto

Eventos concretos a seguir: la adopción real de GPT-Realtime-2 en entornos de agentes de voz de producción, el grado de canibalización frente a los modelos de voz existentes GPT-4o, y las respuestas comparativas de competidores como Anthropic y Google.

Este artículo sobre GPT-Realtime-2 de OpenAI: lleva el razonamiento de GPT-5 a agentes de voz, sube el context a 128K, aparece por primera vez en CadenaNews ABMedia.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios