OpenAI 推 GPT-5.5: 12M Kontext, AA-Index auf Platz 1, Terminal-Bench 82,7% schreibt Agenten-Benchmarks neu

ChainNewsAbmedia

2026-04-23 19:45:18

OpenAI hat am 23.4. offiziell GPT-5.5 veröffentlicht, positioniert als führendes Modell für agentenbasierte (agentic) Arbeit und die Verarbeitung von Unternehmenswissen, und ist gleichzeitig bei ChatGPT und Codex an den Start gegangen. Die offizielle Werbeansage setzt den Ton mit „unser klügstes, intuitivstes und am einfachsten zu nutzendes Modell“, der AA Intelligence Index führt mit 60 Punkten, vor Claude Opus 4.7 und Gemini 3.1 Pro Preview jeweils um 3 Punkte.

Überblick über die Kerndaten

Kennzahl GPT-5.5 im Vergleich (GPT-5.4 oder gleichwertige Wettbewerber) AA Intelligence Index 60 Claude Opus 4.7：57；Gemini 3.1 Pro Preview：57 Terminal-Bench 2.0（Kommandozeilen-Workflow） 82.7% GPT-5.4：75.1% Expert-SWE（OpenAI-interne Programmeinschätzung） 73.1% GPT-5.4：68.5% Kontextfenster 12,0 Millionen Tokens stark erhöht, kann die gesamte Unternehmenscodebasis oder mehrere Stunden Video verarbeiten Preis (pro Million Tokens) Eingang 5 USD, Ausgang 30 USD GPT-5.4 ist der doppelte Stückpreis；aber die Anzahl der Output-Tokens sinkt um ca. 40%, die Netto-Kosten steigen um ca. 20%

Positionierung: Für die „Agent-Zeit“ entworfen

OpenAI beschreibt GPT-5.5 als Basismodell für agentenbasierte Berechnungen: Es kann komplexe Ziele verstehen, Tools nutzen, Arbeitsergebnisse selbst überprüfen und mehrstufige Aufgaben bis zum Abschluss ausführen, ohne dass Menschen in jedem Schritt eingreifen müssen. Laut TechCrunch-Interview bezeichnet der Präsident Greg Brockman diese Version als „ein großer Schritt in Richtung zukünftiger Berechnung, aber eben nur ein Schritt“ und betont, dass sie „im Vergleich zu 5.4 ein schnellerer, schärferer Denker ist und dabei weniger Tokens verwendet“.

Der Chef-Wissenschaftler Jakub Pachocki stellt fest: „Wir sehen kurzfristig sehr deutliche Verbesserungen“; der Research-Leiter Mark Chen betont wiederum, dass diese Version „bedeutende Durchbrüche in den Workflows für wissenschaftliche und technologische Forschung“ mit sich bringt.

Leistungsumfang und Versionsstufen

GPT-5.5：Plus-, Pro-, Business- und Enterprise-Nutzer können es in ChatGPT und Codex verwenden

GPT-5.5 Pro：eine höherstufige Reasoning-Version, die für Pro-, Business- und Enterprise-Nutzer in ChatGPT verfügbar ist

Codex-Integration：同步可用於 OpenAI 的程式代理工具，강화多檔案編輯、命令列與測試迴圈

Sicherheits- und Verteidigungsdiskurs steigt parallel an

Ein Teammitglied für Cybersicherheit, Mia Glaese, sagte in einem TechCrunch-Interview, dass die Sicherheitsfähigkeiten von GPT-5.5 bei OpenAI „eine große Auswirkung darauf haben werden, wie Modelle für digitale Verteidigung eingesetzt werden“. Diese Argumentation steht in direktem Kontrast zu den jüngsten Kontroversen, die Anthropic rund um das Claude Mythos Waffen-Grade-Cyber-Sicherheitsmodell geführt hat – zuvor hatte Altman im „Core Memory“-Programm bereits die „Fear-Marketing“-Strategie von Anthropic kritisiert. Bei GPT-5.5 legt OpenAI noch stärker den Fokus auf die Darstellung „Angriff und Verteidigung in einem, einsetzbar“, um sich in seiner Position deutlich von Anthropic abzugrenzen, das den Zugang einschränkt.

Änderungen der Preisstrategie

Der Preis pro Million Tokens von GPT-5.5 verdoppelt sich auf 5 USD Eingang und 30 USD Ausgang – das ist die erste Generation der GPT-5-Serie, in der der Stückpreis deutlich ansteigt. Die Erklärung von OpenAI lautet: Durch höhere Rechen- bzw. Reasoning-Effizienz können die Output-Tokens um etwa 40% reduziert werden; daher liegt die tatsächliche Abrechnung typischer Aufgaben etwa 20% höher als bei GPT-5.4, nicht einfach bei 2x. Für Unternehmen verschiebt sich die Entscheidungsgrundlage dadurch von „Ist der Stückpreis es wert?“ hin zu „Kann GPT-5.5 bei demselben Prompt in einem Fall mit weniger Token-Gesamtvolumen noch komplexere Aufgaben erledigen?“

Signale für die Branche

GPT-5.5 vergrößert die Lücke, die OpenAI in Terminal-Bench und bei internen SWE-Evaluierungen erzielt: Diese beiden Benchmarks testen jeweils die Ausführung von Kommandozeilen-Agenten und reale Software-Engineering-Aufgaben – für die positive Konfrontation von Codex und Claude Code ist das der direktere Kampfplatz der Punktzahlen. In Kombination mit dem parallelen Öffnen eines Kontextfensters von 12,0 Millionen Tokens setzt OpenAI beide Wettbewerbslinien unter Druck: „vollständige Verarbeitung von Unternehmens-Wissensdatenbanken“ und „Long-Task-Agenten“. Für Anthropic liegt Claude Opus 4.7 im AA-Index mit 57 Punkten 3 Punkte hinterher; für Claude-Code-Nutzer gibt es damit zudem einen weiteren Grund, die Entwicklung der nächsten Generation (Opus 4.8 oder eine neue Generation Claude) zu beobachten.

Dieser Artikel: OpenAI pusht GPT-5.5：12M Kontext, AA-Index an die Spitze, Terminal-Bench 82.7% – Agenten-Benchmark umgeschrieben Erstmals erschienen in 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.