GPT-5.5 kehrt an die Spitze im Codieren zurück, aber OpenAI wechselt Benchmarks, nachdem es gegen Opus 4.7 verloren hat

Gate News Nachricht, 27. April — SemiAnalysis, ein Unternehmen für Halbleiter- und KI-Analysen, veröffentlichte einen vergleichenden Benchmark für Code-Assistenten, darunter GPT-5.5, Claude Opus 4.7 und DeepSeek V4. Die wichtigste Erkenntnis: GPT-5.5 markiert OpenAI’s erste Rückkehr an die Spitze der Coding-Modelle seit sechs Monaten, wobei SemiAnalysis-Ingenieure nun zwischen Codex und Claude Code wechseln, nachdem sie zuvor fast ausschließlich auf Claude gesetzt hatten. GPT-5.5 basiert auf einem neuen Vortrainingsansatz mit dem Codenamen “Spud” und stellt OpenAI’s erste Ausweitung der Vortraining-Skala seit GPT-4.5.

In praktischen Tests zeigte sich eine klare Arbeitsteilung. Claude übernimmt neues Projekt-Planning und die anfängliche Einrichtung, während Codex besonders bei fehlerbehebungen glänzt, die viel Denkaufwand erfordern. Codex zeigt ein stärkeres Verständnis für Datenstrukturen und logisches Denken, hat jedoch Schwierigkeiten, die mehrdeutige Nutzerabsicht abzuleiten. Bei einer einzelnen Dashboard-Aufgabe replizierte Claude automatisch die Layout-Referenzseite, fabrizierte jedoch große Mengen an Daten, während Codex das Layout übersprang, aber deutlich genauere Daten lieferte.

Die Analyse deckt einen Benchmark-Manipulationsaspekt auf: In seinem Februar-Blogbeitrag forderte OpenAI die Branche auf, SWE-bench Pro als neuen Standard für Coding-Benchmarks zu übernehmen. Allerdings wechselte die Ankündigung von GPT-5.5 zu einem neuen Benchmark namens “Expert-SWE.” Der Grund, in den Feinheiten versteckt, ist, dass GPT-5.5 von Opus 4.7 auf SWE-bench Pro übertroffen wurde und deutlich hinter Anthropic’s unveröffentlichtem Mythos (77.8%) zurückfiel.

Bezüglich Opus 4.7 veröffentlichte Anthropic eine Mortem-Analyse eine Woche nach dem Release und erkannte drei Bugs in Claude Code an, die mehrere Wochen lang von März bis April anhielten und nahezu alle Nutzer betrafen. Mehrere Ingenieure hatten zuvor eine Leistungsverschlechterung in Version 4.6 gemeldet, waren jedoch mit der Begründung abgetan worden, es handele sich um subjektive Beobachtungen. Zusätzlich erhöht der neue Tokenizer von Opus 4.7 die Token-Nutzung um bis zu 35%, was Anthropic offen zugab — effektiv eine versteckte Preiserhöhung.

DeepSeek V4 wurde als “mit der Spitze Schritt haltend, aber nicht führend” bewertet und positionierte sich als die kostengünstigste Alternative unter Closed-Source-Modellen. Die Analyse stellte außerdem fest, dass “Claude DeepSeek V4 Pro bei hochschwierigen chinesischen Schreibaufgaben weiterhin übertrifft,” und kommentierte: “Claude gewann gegen das chinesische Modell in dessen eigener Sprache.”

Der Artikel führt ein zentrales Konzept ein: Die Modellpreisgestaltung sollte anhand der “Kosten pro Aufgabe” statt der “Kosten pro Token” bewertet werden. Der Preis von GPT-5.5 ist doppelt so hoch wie der von GPT-5.4 (input $5, output $30 pro Million Tokens), aber es erledigt die gleichen Aufgaben mit weniger Tokens, wodurch die tatsächlichen Kosten nicht notwendigerweise höher sind. Erste SemiAnalysis-Daten zeigen, dass das Input-zu-Output-Verhältnis von Codex bei 80:1 liegt, niedriger als das von Claude Code mit 100:1.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

Intel legt im April um 114% zu – dank starken Ergebnissen und KI-Aufschwung

Laut CNBC stieg Intels Aktie im April um 114 %, was ihren besten Monat aller Zeiten markiert. Ausschlaggebend waren stärkere Quartalsergebnisse sowie eine erneuerte Investorenoptimismus im Hinblick auf die KI-bezogene Erholung. Die Aktien legten am 24. April um 24 % zu, nachdem CEO Lip-Bu Tan bekanntgegeben hatte, dass der Quartalsumsatz um mehr als 7 % gestiegen ist, während

GateNews16M her

Marathon Digital Holdings will Long Ridge Energy für 1,5 Milliarden US-Dollar zur Erweiterung von KI-Datencentern übernehmen

Marathon Digital Holdings erwirbt Long Ridge Energy für 1,5 Milliarden US-Dollar, um seine Kapazität für KI-Datencenters zu erweitern. Der Deal umfasst ein 505-MW-Gaskraftwerk und 1.600 Acres Land in Ohio und stellt damit über 1 GW Leistungskapazität bereit, um künftige KI- und IT-Infrastruktur zu unterstützen

GateNews23M her

OpenClaw veröffentlicht v2026.4.29 am 29. April und aktualisiert den Speicher auf ein personalisiertes Wiki mit Beziehungs-Tracking

Laut Beating hat der Open-Source-KI-Assistent OpenClaw (GitHub 367K Sterne) v2026.4.29 am 29. April veröffentlicht und damit sein zweites Update innerhalb von zwei Tagen bereitgestellt. Das Speichersystem entwickelte sich von einfachem, auf Abruf basierendem Erinnern zu einer personalisierten Wiki, sodass Agenten automatisch Charakterprofile erstellen und r

GateNews1Std her

Musk sagt aus, xAI habe OpenAI-Modelle verwendet, um Grok zu trainieren

Elon Musk sagte am Donnerstag in einem Bundesgericht in Kalifornien aus, dass seine KI-Firma xAI beim Training seines Grok-Chatbots teilweise OpenAI-Modelle genutzt habe, wie TechCrunch berichtet. Das Eingeständnis stellt ein seltenes öffentliches Bekenntnis eines großen KI-Entwicklers zu einer Praxis dar, die angesichts wachsender

CryptoFrontier3Std her

Der CEO von Google, Pichai, enthüllte, dass Gemini-KI genutzt wird, um durch das Verständnis der menschlichen Natur authentischere Kommunikation aufzubauen

Pichai sagte, dass er vor wichtigen Treffen mit Hilfe der Perspektiven von Gemini die Gedanken der anderen Seite analysiert und vorhersagt, um dadurch das Einfühlungsvermögen zu stärken und eine aufrichtigere Kommunikation zu ermöglichen. KI-Agenten können außerdem automatisch E-Mails sortieren, Termine planen und Zusammenfassungen erstellen, sodass Alltagsaufgaben effizienter werden. Darüber hinaus gewinnt ein KI-Ökosystem an Bedeutung, das auf offener Mitgestaltung basiert; Open-Source-Technologien wie Gemini 4 senken die Einstiegshürde. Gleichzeitig wird betont, dass es eines Rahmens für die KI-Governance bedarf, und dass Politik und Gesellschaft sich beteiligen müssen, um Herausforderungen wie Netzwerksicherheit, Deepfakes und Nachhaltigkeit zu bewältigen.

ChainNewsAbmedia4Std her

OpenAI bringt erweiterte Kontosicherheit für ChatGPT an den Start

Erweiterter Kontoschutz-Start OpenAI stellte am Donnerstag den Erweiterten Kontoschutz vor, eine neue, freiwillig aktivierbare Einstellung für ChatGPT, die für Nutzer gedacht ist, die einen stärkeren Schutz wünschen oder einem höheren Risiko digitaler Angriffe ausgesetzt sind. Das Unternehmen sagte, die neue Funktion sei als Reaktion darauf entwickelt worden, wie Menschen sind

CryptoFrontier4Std her
Kommentieren
0/400
Keine Kommentare