BioMysteryBench: Mythos entschlüsseln – Experten ohne Lösung; 29,6%

ChainNewsAbmedia

2026-04-30 06:05:17

Anthropic hat am 29. April in einem offiziellen Forschungs-Update BioMysteryBench vorgestellt – einen neuen Maßstab für KI-Fähigkeiten in der Bioinformatik-Analyse. Er besteht aus offenen Fragestellungen aus realen Forschungsszenarien. Besonders auffällig sind die Daten: Bei Aufgaben, die nach dem Versuch durch ein Expertenteam nicht gelöst werden konnten, brachte das Flaggschiff-Modell Mythos 29,6% der Aufgaben zum Lösen, Opus 4,7 27,0%.

Bewertungsdesign: Lösbare Aufgaben und von Experten nicht lösbare Aufgaben im Zweigleis-System

BioMysteryBench setzt sich aus zwei Aufgabentypen zusammen. Die erste Kategorie sind „lösbare Aufgaben“ – Analyseaufgaben, die von Bioinformatik-Forschenden entworfen wurden, mit Standardlösungen zum Abgleichen. Die zweite Kategorie sind „von Experten nicht lösbare Aufgaben“ – Aufgaben, die nach dem Versuch durch ein menschliches Expertenteam auch weiterhin keine verlässlichen Lösungsansätze hervorbrachten. Damit soll getestet werden, ob Modelle die Grenzen des derzeitigen Fachwissens überschreiten können.

In den lösbaren Aufgaben zeigt Anthropic bei seinen verschiedenen Modellgenerationen eine klare Fähigkeitsabstufung: Claude Haiku 4,5 löst 36,8%, Claude Sonnet 4,6 erreicht 71,8% und das neueste Flaggschiff Claude Mythos kommt auf 82,6%. Diese Abstufung entspricht im Großen und Ganzen Anthropics öffentlich behaupteten Unterschieden in der Modellleistung – Haiku als leichtgewichtiges Modell, Sonnet als Arbeitspferd-Modell und Mythos als erstklassiges Forschungsmodell.

Wirklich diskussionswürdig ist jedoch der Bereich „von Experten nicht lösbare Aufgaben“. Diese Aufgaben wurden nach Bewertung durch ein Expertengremium aus der Bioinformatikbranche als „nicht lösbar oder ohne Konsens“ markiert; Mythos löst davon 29,6%, Opus 4,7 27,0%. Dieses Ergebnis ist kein einzelner Beleg dafür, dass „das Modell stärker ist als Menschen“ – genauer gesagt: Bei Problemen, die Experten aufgrund von Pfad-, Zeit- oder Ressourcenbeschränkungen nicht bearbeiten konnten, kann die KI überprüfbare Lösungswege vorschlagen. Es handelt sich dabei nicht zwangsläufig um die endgültige Antwort, aber um die Eigenschaft, dass sie „einen Blickwinkel einbringt, den Menschen bisher nicht ausprobiert haben“.

Parallel vorangetrieben mit „Claude for Life Sciences“

BioMysteryBench und das seit der zweiten Jahreshälfte 2025 vorangetriebene Programm „Claude for Life Sciences“ von Anthropic verfolgen dieselbe Richtung. Letzteres zielt auf konkrete Anwendungsszenarien wie Wirkstoffentwicklung, Genomik und Studiendesign in klinischen Studien. Erstere quantifiziert hingegen mit Bewertungsmethoden den Fortschritt der „Forschungs-Level“-Fähigkeiten von KI im Bereich der Lebenswissenschaften. In Kombination entsteht daraus ein Signal: Anthropic positioniert biomedizinische Forschung als einen der langfristigen Hauptschauplätze für Claudes Einsatz und tritt damit in Konkurrenz zu DeepMinds AlphaFold-Route, die einen anderen Einstieg bietet.

Wenn die Zahl, dass Mythos knapp 30% der von Experten nicht lösbaren Aufgaben löst, in unabhängigen Drittanbieter-Verifikationen reproduzierbar ist, würde das zu einem frühen Praxisbeleg für den konkreten Nutzen von KI-Modellen in Forschungsszenarien werden. Zu beobachtende Punkte für die Zukunft sind unter anderem: Ob BioMysteryBench von anderen Forschungseinrichtungen als Standard-Benchmark übernommen wird, welche Verifikationsprozesse menschlicher Experten es für die gelösten Aufgaben geben werden und ob Mythos die Testergebnisse in realen Forschungsprojekten replizieren kann.

Dieser Artikel BioMysteryBench：Mythos 解專家無解題 29.6% ist zuerst erschienen in 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.