Google DeepMind hat „AI Co-Mathematician“ veröffentlicht, einen Multi-Agenten-Mathematik-Forschungsassistenten, der auf dem FrontierMath-Tier-4-Benchmark 47,9% Genauigkeit erreicht und damit den bisherigen Rekord von GPT-5,5 Pro von 39,6% vom 9. Mai übertrifft. Das System löste 23 von 48 Aufgaben, darunter 3, die alle vorherigen Modelle nicht lösen konnten. Die auf Gemini 3,1 Pro basierende Architektur nutzt ein hierarchisches Design: Ein Projekt-Koordinator-Agent verteilt Aufgaben an Sub-Agenten, die Literaturabruf, Programmierung und Schlussfolgern übernehmen; mehrere Reviewer-Agenten validieren Beweise, bevor sie eingereicht werden.
Epoch AI führte Blindtests durch, sodass das DeepMind-Team die Aufgaben nicht sehen konnte, wobei jede Frage bis zu 48 Stunden Rechenzeit erhielt. In einer realen Anwendung nutzte der Mathematiker Marc Lackenby das System, um eine offene Vermutung aus dem Kourovka-Notizbuch zu klären, womit sein praktischer Forschungswert belegt wurde. Das System steht derzeit einer begrenzten Zahl von Mathematikern im Betatest zur Verfügung.
Related News
Jeff Kaufman: KI durchbricht gleichzeitig zwei Arten von Sicherheitslücken-Kultur, und eine 90-tägige Sperrfrist wird ins Gegenteil verkehrt
OpenAI deckt überraschende Auswirkungen von CoT-Bewertungen auf: Die Überwachung der Gedankenketten als entscheidende Schutzlinie für die Ausrichtung von KI-Agenten
OpenAIs GPT-5.5-Cyber rüstet Cyberverteidiger auf