Des chercheurs de l’université Stanford ont constaté que des professeurs de droit privilégiaient des réponses générées par IA à des réponses rédigées par leurs pairs, environ 75% du temps, dans une étude récente. Sur 2 918 comparaisons à l’aveugle, 16 professeurs issus de 14 écoles de droit américaines ont choisi des réponses de Gemini 2.5 Pro de Google 75,92% du temps et des réponses de NotebookLM 74,75% du temps, contre des réponses d’instructeurs humains. L’étude a testé si les grands modèles de langage pouvaient s’aligner sur des normes de raisonnement juridique professionnel à travers la doctrine juridique, la jurisprudence, des cas hypothétiques et des enjeux de politique publique, alors que des écoles de droit et des tribunaux intègrent de plus en plus des outils d’IA à la pratique juridique.
L’étude de Stanford teste l’IA face aux professeurs de droit sur des questions de droit des contrats
L’étude a impliqué 16 professeurs de 14 écoles de droit américaines, dont Stanford, Yale, la New York University, l’Université de Chicago, Georgetown, l’UCLA et l’Université de Virginie. Les professeurs ont créé 40 questions de droit des contrats couvrant la doctrine juridique, la jurisprudence, des cas hypothétiques et des enjeux de politique publique. Les chercheurs ont conçu l’évaluation pour tester les capacités de l’IA dans des domaines nécessitant du jugement plutôt que des réponses uniques et correctement établies.
« Les grands modèles de langage (LLM) sont de plus en plus présentés comme des tuteurs éducatifs, mais la plupart des évaluations se concentrent sur des domaines qui ont une seule vérité de référence », ont écrit les chercheurs. « Cependant, de nombreuses disciplines reposent sur le jugement : raisonner, peser l’ambiguïté et parvenir à des conclusions défendables. Le droit constitue un test exigeant. »
Les professeurs évaluaient des paires de réponses dans des comparaisons à l’aveugle, en choisissant la réponse qu’ils préféreraient donner à un étudiant sans savoir si la réponse provenait d’une IA ou d’un instructeur humain.
Gemini 2.5 Pro et NotebookLM remportent 75% des comparaisons entre professeurs
Gemini 2.5 Pro de Google a remporté 75,92% de ses duels contre des instructeurs humains, tandis que NotebookLM a remporté 74,75% du temps. Les chercheurs ont analysé si les résultats reflétaient un consensus professionnel plus large en examinant les taux d’accord lorsque les professeurs évaluaient les mêmes paires de réponses.
« L’accord observé dépassait le niveau attendu si les jugements étaient entièrement idiosyncratiques, indiquant que le succès des LLM reflète un alignement avec des critères disciplinaires communs », ont écrit les chercheurs.
Les modèles d’IA ont surpassé les instructeurs humains dans plusieurs catégories, y compris des questions de rappel liées aux affaires, au code ou à la doctrine, des cas hypothétiques et des discussions de politique publique. L’étude a testé si les avantages de l’IA proviennent d’un style d’écriture superficiel plutôt que d’un contenu substantiel en analysant des caractéristiques lexico-syntaxiques telles que la longueur des réponses, l’organisation structurelle, la nuance du raisonnement, les ancrages juridiques, le ton de confiance, la clarté et le soutien pédagogique.
Dans une analyse distincte portant sur des modèles supplémentaires, Claude Opus 4.7 d’Anthropic est arrivé en première position, suivi par ChatGPT 5.4 d’OpenAI et Gemini 2.5 Pro. Chaque modèle d’IA évalué a surpassé les instructeurs humains en moyenne.
Les modèles d’IA enregistrent des taux de nocivité plus faibles que les instructeurs humains
Les réponses générées par IA ont été signalées comme nocives moins souvent que celles rédigées par des professeurs. Gemini a enregistré un taux de nocivité de 3,41% et NotebookLM un taux de 3,64%, contre 12,06% pour les instructeurs humains.
Les chercheurs ont noté que l’étude ne mesurait pas si les réponses correspondaient aux préférences individuelles d’enseignement de chaque professeur. « Bien que les réponses des LLM soient généralement préférées à celles des instructeurs humains, notre cadre d’évaluation ne nous permet pas de mesurer directement l’ampleur dans laquelle les préférences des instructeurs sont satisfaites », indique l’étude. « Il est au moins théoriquement possible que, bien que délivrant généralement des réponses plus solides, les LLM génèrent encore des réponses qui ne sont perçues que comme “suffisamment bonnes”. »
La Cour supérieure de Los Angeles et les écoles de droit adoptent des outils d’IA
La Cour supérieure de Los Angeles a commencé à tester des outils d’IA en mars pour aider les juges à gérer l’augmentation des dossiers. Les écoles de droit ajoutent des programmes de formation à l’IA alors que la profession juridique intègre l’intelligence artificielle.
« On ne peut pas ignorer le potentiel de ces nouvelles technologies en tant que multiplicateur de force dans la pratique du droit », a déclaré John P. Anderson, doyen de la Mississippi College School of Law, à Decrypt. « Qu’ils prévoient de devenir avocats plaidants ou avocats en transactions, les futurs employeurs de nos étudiants s’attendront à ce qu’ils soient familiers avec ces outils d’IA. Nous voulons que les cabinets qui recrutent nos étudiants soient convaincus que chaque diplômé de la MC Law est compétent dans les technologies d’IA. »
Sullivan & Cromwell admet des citations d’IA fictives dans un dépôt de faillite
Les cabinets d’avocats continuent de faire face à des affaires minées par des hallucinations et d’autres erreurs générées par IA. En avril, le cabinet d’avocats Sullivan & Cromwell a admis devant un tribunal américain de faillite qu’un dépôt récent dans une affaire très médiatisée contenait des citations fictives générées par IA.
FAQ
Quel pourcentage du temps les professeurs de droit ont-ils préféré des réponses générées par IA à des réponses rédigées par des humains dans l’étude de Stanford ?
Les professeurs de droit ont préféré des réponses générées par IA environ 75% du temps dans l’étude de Stanford. Gemini 2.5 Pro de Google a remporté 75,92% de ses duels contre des instructeurs humains, tandis que NotebookLM a remporté 74,75% du temps sur l’ensemble de 2 918 comparaisons à l’aveugle.
Comment les taux de nocivité de l’IA se compareaient-ils aux réponses des instructeurs humains dans l’étude ?
Les réponses générées par IA affichaient des taux de nocivité plus faibles que les réponses des instructeurs humains. Gemini avait un taux de nocivité de 3,41% et NotebookLM un taux de 3,64%, contre 12,06% pour les instructeurs humains.
Quels outils d’IA la Cour supérieure de Los Angeles teste-t-elle ?
La Cour supérieure de Los Angeles a commencé à tester des outils d’IA en mars pour aider les juges à gérer l’augmentation des dossiers, bien que les outils spécifiques n’aient pas été identifiés dans la source.