OpenAI bringt GPT-Realtime-2: GPT-5-Rechenlogik in Voice-Agenten, Context auf 128K angehoben

ChainNewsAbmedia

OpenAI kündigte am 7. Mai (US-Zeit) auf der Entwicklerkonferenz drei neue Realtime-Sprachmodelle an: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper, die alle Entwicklern über die Realtime API zur Verfügung gestellt werden. In der offiziellen Ankündigung von OpenAI wird erläutert, dass GPT-Realtime-2 das erste Sprachmodell von OpenAI mit GPT-5-Niveaus an Rechen-/Schlussfolgerungsfähigkeit ist: Es kann in Sprachdialogen sofort Schlussfolgerungen ziehen, Tools aufrufen, Korrekturen verarbeiten und dabei den natürlichen Gesprächsrhythmus beibehalten.

GPT-Realtime-2: context von 32K auf 128K erhöht, fünf Stufen der Rechen-/Schlussfolgerungsstärke konfigurierbar

Die Kern-Upgrades von GPT-Realtime-2:

context window: 32K auf 128K Tokens erhöht

Rechen-/Schlussfolgerungsstärke konfigurierbar: minimal, low, medium, high, xhigh in fünf Stufen

Big Bench Audio Test: high Rechen-/Schlussfolgerung 96,6 %, Vorgänger GPT-Realtime-1.5 81,4 %

Audio MultiChallenge Befolgung: xhigh Rechen-/Schlussfolgerung 48,5 %, Vorgänger 34,7 %

Durch den größeren context und die konfigurierbare Rechen-/Schlussfolgerungsstärke können Entwickler je nach Szenario zwischen „günstig und schnell“ und „tiefes Nachdenken“ umschalten: Für einfachen Kundensupport kann man mit minimal die Kosten steuern, für komplexe Aufgaben auf xhigh wechseln und dafür GPT-5-Niveaus an Rechen-/Schlussfolgerungsqualität erhalten.

Parallel wurden zwei spezialisierte Modelle veröffentlicht: Translate für Übersetzungen über Sprachen hinweg und Whisper für Echtzeit-Transkription

In dieser Runde teilen sich die drei neuen Modelle diese Rollen:

GPT-Realtime-Translate: Echtzeit-Sprachübersetzung, unterstützt 70 Eingabesprachen und 13 Ausgabesprachen

GPT-Realtime-Whisper: Low-Latency-Streaming-Transkription, liefert Text „während gesprochen wird“, geeignet für Live-Untertitel, Sitzungsprotokolle und Unterrichts-Wordingsätze (wortwörtliche Mitschriften)

GPT-Realtime-2: vollständiger Dialog-Agent, kann Rechen-/Schlussfolgerungen durchführen, Tools nutzen und Aktionen ausführen

Translate und Whisper sind auf spezielle Sprach-Anwendungen zugeschnitten – Übersetzungs- und Transkriptionslatenz sowie Kostenempfindlichkeit sind höher als bei allgemeinem Dialog; mit separaten Modellen lassen sich jeweils die eigenen Kennzahlen optimieren.

Preis: GPT-Realtime-2 pro Million Eingabe 32 US-Dollar, Ausgabe 64 US-Dollar

Preisstruktur für die drei Modelle:

GPT-Realtime-2: pro Million Sprach-Eingabe 32 US-Dollar, gecachte Eingabe 0,40 US-Dollar, Ausgabe 64 US-Dollar

GPT-Realtime-Translate: pro Minute 0,034 US-Dollar

GPT-Realtime-Whisper: pro Minute 0,017 US-Dollar

Nachverfolgbarer konkreter Ausblick: GPT-Realtime-2s tatsächliche Übernahme in Produktionsumgebungen für Sprach-Agenten, wie stark es bestehende GPT-4o-Sprachmodelle „kanibalisiert“, sowie die Vergleichsreaktionen von Wettbewerbern wie Anthropic und Google.

Dieser Artikel „OpenAI pusht GPT-Realtime-2: bringt GPT-5-Rechen-/Schlussfolgerung in Sprach-Agenten, context auf 128K angehoben“ erschien erstmals bei Ketten News ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare