OpenAI kündigte am 7. Mai (US-Zeit) auf der Entwicklerkonferenz drei neue Realtime-Sprachmodelle an: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper, die alle Entwicklern über die Realtime API zur Verfügung gestellt werden. In der offiziellen Ankündigung von OpenAI wird erläutert, dass GPT-Realtime-2 das erste Sprachmodell von OpenAI mit GPT-5-Niveaus an Rechen-/Schlussfolgerungsfähigkeit ist: Es kann in Sprachdialogen sofort Schlussfolgerungen ziehen, Tools aufrufen, Korrekturen verarbeiten und dabei den natürlichen Gesprächsrhythmus beibehalten.
GPT-Realtime-2: context von 32K auf 128K erhöht, fünf Stufen der Rechen-/Schlussfolgerungsstärke konfigurierbar
Die Kern-Upgrades von GPT-Realtime-2:
context window: 32K auf 128K Tokens erhöht
Rechen-/Schlussfolgerungsstärke konfigurierbar: minimal, low, medium, high, xhigh in fünf Stufen
Big Bench Audio Test: high Rechen-/Schlussfolgerung 96,6 %, Vorgänger GPT-Realtime-1.5 81,4 %
Audio MultiChallenge Befolgung: xhigh Rechen-/Schlussfolgerung 48,5 %, Vorgänger 34,7 %
Durch den größeren context und die konfigurierbare Rechen-/Schlussfolgerungsstärke können Entwickler je nach Szenario zwischen „günstig und schnell“ und „tiefes Nachdenken“ umschalten: Für einfachen Kundensupport kann man mit minimal die Kosten steuern, für komplexe Aufgaben auf xhigh wechseln und dafür GPT-5-Niveaus an Rechen-/Schlussfolgerungsqualität erhalten.
Parallel wurden zwei spezialisierte Modelle veröffentlicht: Translate für Übersetzungen über Sprachen hinweg und Whisper für Echtzeit-Transkription
In dieser Runde teilen sich die drei neuen Modelle diese Rollen:
GPT-Realtime-Translate: Echtzeit-Sprachübersetzung, unterstützt 70 Eingabesprachen und 13 Ausgabesprachen
GPT-Realtime-Whisper: Low-Latency-Streaming-Transkription, liefert Text „während gesprochen wird“, geeignet für Live-Untertitel, Sitzungsprotokolle und Unterrichts-Wordingsätze (wortwörtliche Mitschriften)
GPT-Realtime-2: vollständiger Dialog-Agent, kann Rechen-/Schlussfolgerungen durchführen, Tools nutzen und Aktionen ausführen
Translate und Whisper sind auf spezielle Sprach-Anwendungen zugeschnitten – Übersetzungs- und Transkriptionslatenz sowie Kostenempfindlichkeit sind höher als bei allgemeinem Dialog; mit separaten Modellen lassen sich jeweils die eigenen Kennzahlen optimieren.
Preis: GPT-Realtime-2 pro Million Eingabe 32 US-Dollar, Ausgabe 64 US-Dollar
Preisstruktur für die drei Modelle:
GPT-Realtime-2: pro Million Sprach-Eingabe 32 US-Dollar, gecachte Eingabe 0,40 US-Dollar, Ausgabe 64 US-Dollar
GPT-Realtime-Translate: pro Minute 0,034 US-Dollar
GPT-Realtime-Whisper: pro Minute 0,017 US-Dollar
Nachverfolgbarer konkreter Ausblick: GPT-Realtime-2s tatsächliche Übernahme in Produktionsumgebungen für Sprach-Agenten, wie stark es bestehende GPT-4o-Sprachmodelle „kanibalisiert“, sowie die Vergleichsreaktionen von Wettbewerbern wie Anthropic und Google.
Dieser Artikel „OpenAI pusht GPT-Realtime-2: bringt GPT-5-Rechen-/Schlussfolgerung in Sprach-Agenten, context auf 128K angehoben“ erschien erstmals bei Ketten News ABMedia.