D’après Beating, OpenAI a publié trois modèles vocaux dans son API Realtime : GPT-Realtime-2 pour la conversation vocale avec raisonnement, GPT-Realtime-Translate pour la traduction en temps réel, et GPT-Realtime-Whisper pour la transcription en flux. GPT-Realtime-2 est le premier modèle vocal d’OpenAI avec une capacité de raisonnement de niveau GPT-5, étendant la fenêtre de contexte de 32K à 128K jetons, et prenant en charge jusqu’à 1-2 heures de conversation dense.
GPT-Realtime-2 a amélioré de 15,2% le benchmark Big Bench Audio et de 13,8% Audio MultiChallenge par rapport à GPT-Realtime-1.5. GPT-Realtime-Translate prend en charge 70+ langues d’entrée pour produire des traductions dans 13 langues de sortie. Tarification : GPT-Realtime-2 à 32 dollars par million de jetons d’entrée et 64 dollars par million de jetons de sortie ; Translate à 0,034 dollar par minute ; Whisper à 0,017 dollar par minute.