KI-Agenten können komplexe wissenschaftliche Arbeiten inzwischen selbstständig nachbilden: Mollick sagt, dass Fehler eher im menschlichen Original als in der KI liegen

ChainNewsAbmedia

Professor Ethan Mollick von der Wharton School der University of Pennsylvania machte auf einem X-Post vom 25.4. eine Beobachtung, die die Wissenschaftswelt stark erschüttert: Aktuelle KI-Agenten können komplexe akademische Forschungsergebnisse bereits dann unabhängig reproduzieren, wenn keine Originalarbeiten und kein Originalcode vorliegen – allein anhand öffentlicher Methodendiskriptionen und Daten. Mollick stellte weiter fest, dass, wenn diese KI-Reproduktionen vom Originalpapier abweichen, „die Fehler in der Regel in den menschlichen Originaltexten liegen und nicht in der KI“. Das ist ein konkreter Wendepunkt der Krise der wissenschaftlichen Reproduzierbarkeit im Zeitalter der generativen KI – Peer-Reviews, die früher teure Arbeitskraft erforderten, werden gerade in großem Umfang und zu geringen Kosten von KI erledigt.

Claude reproduziert mehrere Paper und verifiziert anschließend erneut mit GPT-5 Pro

In seinem OneUsefulThing-Blog sowie in diesem Tweet beschreibt Mollick seine konkreten Experimente mit Claude: Er gibt ein wissenschaftliches Paper an Claude, sodass es das Archiv öffnet, Dateien organisiert, den für die Statistik verwendeten STATA-Code automatisch in Python umwandelt und dann nacheinander alle Erkenntnisse aus dem Paper ausführt. Nachdem Claude fertig ist, überprüft er dieselben Reproduktionsergebnisse in einer zweiten Runde mit GPT-5 Pro. Mehrere Papers wurden auf die gleiche Weise getestet; die Ergebnisse waren insgesamt erfolgreich, nur wenn die Daten-Dateien zu groß sind oder wenn mit den ursprünglichen replication data selbst etwas nicht stimmt, kommt es zu Hindernissen.

Für die Wissenschaft war dieser Prozess in der Vergangenheit normalerweise mit Aufwand verbunden, den Forschungsassistenten oft über Wochen oder sogar Monate betrieben. Mollick beschreibt den Zeitrahmen als von einem Nachmittag bis zu einem Tag, und die Ausführungskosten belaufen sich nur auf Token-Kosten für eine kommerzielle LLM-API.

Die Fehler liegen mehr in den menschlichen Originalen, nicht in der KI

Noch kontroverser ist Mollicks Einschätzung, „wer“ falsch liegt. Er macht in seinem Tweet ausdrücklich klar, dass es in den meisten Fällen nicht die KI ist, die sich irrt, wenn die von KI reproduzierten Ergebnisse nicht mit dem Originalpaper übereinstimmen, sondern dass im Originalpaper Fehler in der Datenverarbeitung vorliegen, das Modell falsch angewendet wurde oder die Schlussfolgerungen über den Bereich hinausgehen, den die Daten stützen. In den letzten zehn Jahren gab es in den Sozialwissenschaften wie Psychologie, Verhaltensökonomie und Management mehrfach große Ereignisse im Bereich mangelnder Reproduzierbarkeit; das bekannteste Beispiel ist die große Reproduktionsstudie der 2015 von Open Science Collaboration, bei der nur etwa 36% der Ergebnisse von Psychologie-Papers unabhängig reproduziert werden konnten. Der KI-Agent verschiebt diese Prüfungslogik von der Grenze „mit personellem Match-Aufwand“ hin zu etwas, das allgemein ausführbar ist.

AI noch immer für den Peer-Review ausgeschlossen, während das Regelwerk der Technik hinterherhinkt

In einem weiteren Tweet vom 25.4. benennt Mollick konkret die größte Fachgesellschaft in seinem Bereich: die Academy of Management, die AI weiterhin ausdrücklich verbietet, in den Paper-Review-Prozess einzuziehen. Er zitiert bestehende Studien, wonach KI-Reviews in Genauigkeit, Konsistenz und Bias-Kontrolle bereits besser sein können als einige traditionelle menschliche Reviewer; daher könne die „Verbots“-Position möglicherweise die Fehlfunktionen bestehender Review-Systeme sogar verschärfen. Die Kluft zwischen diesem Regelwerk und der Technik ist eine Politikfrage, der sich die wissenschaftliche Publikationsbranche, Fachgesellschaften und Förderinstitutionen in den kommenden 1–2 Jahren stellen müssen.

Für Leser ist diese Debatte nicht auf die akademische Welt begrenzt. Wenn KI-Agenten Forschungsergebnisse in Echtzeit verifizieren können, werden die wissenschaftlichen Grundlagen in Forschungszitationen der Industrie, in politischen Berichten und in finanziellen Entscheidungen einer neuen Schwelle der Prüfung unterzogen: „Hält das Fazit einer unabhängigen KI-Reproduktion stand?“. In einer Ergänzung zu seinem weiteren Tweet ist Mollick der Ansicht, dass die Regierung die einzige Einheit ist, die als Anker für die Ausgestaltung dieses Prüfprozesses dient, wenn die Werkzeugstärke kontinuierlich steigt – und dass die Komplexität des Politikdesigns zugleich zu einem relativ übersehenen Hauptstrang in der KI-Governance-Diskussion werden wird.

Dieser Artikel AI Agent kann komplexe akademische Paper bereits unabhängig reproduzieren: Mollick sagt, dass die Fehler eher in den menschlichen Originalen als in der KI liegen; die erste Erwähnung erfolgte bei 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare