За даними Beating, OpenAI випустила три голосові моделі у своєму Realtime API: GPT-Realtime-2 для голосової розмови з міркуваннями, GPT-Realtime-Translate для перекладу в реальному часі та GPT-Realtime-Whisper для потокової транскрипції. GPT-Realtime-2 — перша голосова модель OpenAI з можливістю міркувань на рівні GPT-5: вона розширює контекстне вікно з 32K до 128K токенів і підтримує до 1–2 годин щільних розмов.
GPT-Realtime-2 покращила на 15,2% показники Big Bench Audio порівняно з GPT-Realtime-1.5 та на 13,8% на Audio MultiChallenge. GPT-Realtime-Translate підтримує 70+ вхідних мов і перекладає на 13 вихідних мов. Ціни: GPT-Realtime-2 — $32 за мільйон вхідних токенів і $64 за мільйон вихідних токенів; Translate — $0,034 за хвилину; Whisper — $0,017 за хвилину.