Google DeepMind AI-Co-Mathematiker erreicht 47,9 % bei FrontierMath Tier 4, schlägt GPT-5.5 Pro, löst 3 zuvor unlösbare Probleme

Google DeepMind hat „AI Co-Mathematician“ veröffentlicht, einen Multi-Agenten-Mathematik-Forschungsassistenten, der auf dem FrontierMath-Tier-4-Benchmark 47,9% Genauigkeit erreicht und damit den bisherigen Rekord von GPT-5,5 Pro von 39,6% vom 9. Mai übertrifft. Das System löste 23 von 48 Aufgaben, darunter 3, die alle vorherigen Modelle nicht lösen konnten. Die auf Gemini 3,1 Pro basierende Architektur nutzt ein hierarchisches Design: Ein Projekt-Koordinator-Agent verteilt Aufgaben an Sub-Agenten, die Literaturabruf, Programmierung und Schlussfolgern übernehmen; mehrere Reviewer-Agenten validieren Beweise, bevor sie eingereicht werden.

Epoch AI führte Blindtests durch, sodass das DeepMind-Team die Aufgaben nicht sehen konnte, wobei jede Frage bis zu 48 Stunden Rechenzeit erhielt. In einer realen Anwendung nutzte der Mathematiker Marc Lackenby das System, um eine offene Vermutung aus dem Kourovka-Notizbuch zu klären, womit sein praktischer Forschungswert belegt wurde. Das System steht derzeit einer begrenzten Zahl von Mathematikern im Betatest zur Verfügung.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare