Forscher der Stanford University fanden, dass Juraprofessoren Antworten auf Vertragsrecht-Fragen, die von KI generiert wurden, denen vorzogen, die von Kolleginnen und Kollegen geschrieben wurden – ungefähr 75% der Zeit in einer aktuellen Studie. In 2.918 verblindeten Vergleichen wählten 16 Professoren aus 14 US-amerikanischen juristischen Fakultäten die Antworten von Googles Gemini 2.5 Pro 75,92% der Zeit und die Antworten von NotebookLM 74,75% der Zeit gegenüber Antworten von menschlichen Dozenten.
Die Studie untersuchte, ob große Sprachmodelle professionelle Maßstäbe juristischer Argumentation über Rechtsdogmatik, Fallrecht, hypothetische Szenarien und politische Fragestellungen hinweg einordnen können, da Rechtsfakultäten und Gerichte KI-Tools zunehmend in die juristische Praxis integrieren.
An der Studie nahmen 16 Professoren von 14 US-amerikanischen juristischen Fakultäten teil, darunter Stanford, Yale, die New York University, die University of Chicago, Georgetown, UCLA und die University of Virginia. Die Professoren erstellten 40 Fragen zum Vertragsrecht, die Rechtsdogmatik, Fallrecht, hypothetische Szenarien und politische Fragestellungen abdeckten. Die Forschenden konzipierten die Bewertung so, dass sie die KI-Fähigkeiten in Bereichen testet, die Urteilsvermögen erfordern, statt nur eine einzelne richtige Antwort.
„Große Sprachmodelle (LLMs) werden zunehmend als Lern-Tutoren beworben, doch die meisten Bewertungen konzentrieren sich auf Bereiche mit einer einzigen gesicherten Wahrheit“, schrieben die Forschenden. „Viele Disziplinen hängen jedoch von Urteilsvermögen ab: Argumentation, das Abwägen von Unklarheiten und das Erreichen vertretbarer Schlussfolgerungen. Das Recht bietet einen scharfen Test.“
Die Professoren bewerteten Antwortpaare in verblindeten Vergleichen und wählten die Antwort, die sie einem Studierenden lieber geben würden, ohne zu wissen, ob die Antwort von einer KI oder von einem menschlichen Dozenten stammte.
Googles Gemini 2.5 Pro gewann 75,92% seiner Duelle gegen menschliche Dozenten, während NotebookLM 74,75% der Zeit gewann. Die Forschenden analysierten, ob die Ergebnisse breitere berufliche Zustimmung widerspiegelten, indem sie die Übereinstimmungsraten betrachteten, wenn die Professoren dieselben Antwortpaare bewerteten.
„Die beobachtete Übereinstimmung lag über dem Niveau, das zu erwarten wäre, wenn die Urteile vollständig idiosynkratisch wären, was darauf hindeutet, dass der Erfolg der LLMs die Ausrichtung an gemeinsamen Kriterien der jeweiligen Disziplin widerspiegelt“, schrieben die Forschenden.
KI-Modelle schnitten in mehreren Kategorien besser ab als menschliche Dozenten, darunter Abruf-Fragen zu Fall, Code oder Dogmatik, hypothetische Szenarien und Diskussionen zu politischen Themen. Die Studie prüfte, ob KI-Vorteile aus einem oberflächlichen Schreibstil statt aus inhaltlicher Substanz stammen, indem sie lexiko-syntaktische Merkmale wie Antwortlänge, strukturelle Organisation, Nuancen der Argumentation, rechtliche Anker, Ton der Zuversicht, Klarheit und pädagogische Unterstützung analysierte.
In einer separaten Analyse zusätzlicher Modelle belegte Anthropics Claude Opus 4.7 den ersten Platz, gefolgt von OpenAIs ChatGPT 5.4 und Gemini 2.5 Pro. Jedes bewertete KI-Modell schnitt im Durchschnitt besser ab als menschliche Dozenten.
KI-generierte Antworten wurden seltener als schädlich markiert als Antworten, die von Professoren erstellt wurden. Gemini verzeichnete eine Schadenspotenzial-Rate von 3,41% und NotebookLM eine von 3,64%, verglichen mit 12,06% bei menschlichen Dozenten.
Die Forschenden stellten fest, dass die Studie nicht gemessen habe, ob die Antworten mit den individuellen Lehrpräferenzen jedes einzelnen Professors übereinstimmten. „Obwohl LLM-Antworten im Allgemeinen denen menschlicher Dozenten vorgezogen werden, erlaubt unsere Bewertungseinordnung nicht, den Umfang direkt zu messen, in dem die Präferenzen der Dozenten erfüllt werden“, heißt es in der Studie. „Es ist zumindest theoretisch möglich, dass LLMs, obwohl sie generell stärkere Antworten liefern, dennoch Antworten erzeugen, die lediglich als ‚gut genug‘ angesehen werden.“
Das Superior Court in Los Angeles begann im März mit Tests von KI-Tools, um Richterinnen und Richtern dabei zu helfen, steigende Fallzahlen zu bewältigen. Rechtsfakultäten bauen KI-Trainingsprogramme aus, während sich die Rechtsbranche in die Richtung künstlicher Intelligenz bewegt.
„Das potenzielle Nutzenprofil dieser neuen Technologien als Kraftverstärker in der juristischen Praxis lässt sich einfach nicht ignorieren“, sagte John P. Anderson, Dean der Mississippi College School of Law, gegenüber Decrypt. „Ganz gleich, ob unsere Studierenden planen, Prozessanwälte oder Transaktionsanwälte zu werden, werden künftige Arbeitgeber von ihnen erwarten, dass sie mit diesen KI-Tools vertraut sind. Wir wollen, dass die Kanzleien, die unsere Studierenden einstellen, zuversichtlich sind, dass jeder MC-Law-Absolvent in KI-Technologien kompetent ist.“
Anwaltskanzleien sehen sich weiterhin Fällen gegenüber, die durch Halluzinationen und andere KI-generierte Fehler unterminiert wurden. Im April gestand die Kanzlei Sullivan & Cromwell einem US-amerikanischen Insolvenzgericht, dass eine jüngste Einreichung in einem hochkarätigen Fall gefälschte von KI generierte Zitate enthielt.
Welchen Prozentsatz der Zeit bevorzugten Juraprofessoren im Stanford-Studie KI-generierte Antworten gegenüber von Menschen verfassten Antworten?
Juraprofessoren bevorzugten KI-generierte Antworten ungefähr 75% der Zeit in der Stanford-Studie. Googles Gemini 2.5 Pro gewann 75,92% seiner Duelle gegen menschliche Dozenten, während NotebookLM 74,75% der Zeit gewann – über 2.918 verblindete Vergleiche hinweg.
Wie schnitten die Raten an Schadenspotenzial bei KI im Vergleich zu den Antworten menschlicher Dozenten in der Studie ab?
KI-generierte Antworten wiesen niedrigere Raten an Schadenspotenzial auf als die Antworten menschlicher Dozenten. Gemini hatte eine Schadenspotenzial-Rate von 3,41% und NotebookLM eine von 3,64%, verglichen mit 12,06% bei menschlichen Dozenten.
Welche KI-Tools testet das Superior Court in Los Angeles?
Das Superior Court in Los Angeles begann im März mit Tests von KI-Tools, um Richterinnen und Richtern dabei zu helfen, steigende Fallzahlen zu bewältigen, obwohl die spezifischen Tools in der Quelle nicht identifiziert wurden.
Related News
Microsoft veröffentlicht 7 KI-Modelle im Build-Update, Token-Nutzung liegt 60% unter der Konkurrenz
Microsoft stellt sieben KI-Modelle vor, die einen Vorteil gegenüber Claude und Nano Banana behaupten
Alphabet erhöht um 80 Milliarden, um die KI-Rechenleistung umzuweiten; Berkshire steigt mit 10 Milliarden ein.
Alphabet strebt 80 Milliarden US-Dollar an, um die Expansion der KI-Infrastruktur zu finanzieren
Die KI-Kostenkrise befeuert neue Vergleiche mit einer frischen Dot-Com-Blase