Професори права віддають перевагу відповідям від ШІ замість людських у 75% випадків у дослідженні Стенфорда

Дослідники зі Стенфордського університету з’ясували, що викладачі права віддавали перевагу відповідям, згенерованим ШІ, над тими, які написали колеги-викладачі, приблизно у 75% випадків у недавньому дослідженні. У 2 918 засліплених порівняннях 16 викладачів із 14 американських юридичних шкіл обирали відповіді Google Gemini 2.5 Pro у 75,92% випадків і відповіді NotebookLM у 74,75% випадків — замість відповідей від людини-викладача. У дослідженні перевіряли, чи великі мовні моделі можуть узгоджуватися з професійними стандартами юридичного мислення в межах правових доктрин, прецедентного права, гіпотетичних ситуацій і питань політики, адже юридичні школи та суди дедалі частіше інтегрують інструменти ШІ в правову практику.

Дослідження Стенфорда перевіряє ШІ проти викладачів права на запитаннях з договірного права

У дослідженні взяли участь 16 викладачів із 14 юридичних шкіл США, зокрема Стенфорд, Єль, Нью-Йоркський університет, Університет Чикаго, Джорджтаун, UCLA та Університет Вірджинії. Викладачі підготували 40 запитань з договірного права, що охоплювали правові доктрини, кейси, гіпотетичні ситуації та питання політики. Дослідники спроєктували оцінювання так, щоб перевірити можливості ШІ в сферах, де потрібне судження, а не одна-єдина правильна відповідь.

«Великі мовні моделі (LLM) дедалі частіше просувають як навчальних тьюторів, однак більшість оцінювань фокусується на доменах із однією “базовою правдою”, — написали дослідники. — Багато дисциплін, втім, спираються на судження: міркування, зважування неоднозначності та ухвалення обґрунтованих висновків. Право дає надзвичайно гострий тест».

Викладачі оцінювали пари відповідей у засліплених порівняннях, обираючи той варіант відповіді, який вони б радше дали студенту, не знаючи, чи відповідь підготував ШІ, чи людина-викладач.

Gemini 2.5 Pro і NotebookLM перемагають у 75% порівнянь викладачів

Gemini 2.5 Pro від Google виграла 75,92% своїх протистоянь із відповідями від людини-викладача, тоді як NotebookLM вигравала у 74,75% випадків. Дослідники аналізували, чи результати відображають ширший професійний консенсус, перевіряючи рівень узгодженості, коли викладачі оцінювали ті самі пари відповідей.

«Зафіксована узгодженість перевищила рівень, очікуваний у разі цілковито індивідуалізованих суджень, що вказує: успіх LLM відображає узгодження із поширеними критеріями в межах дисципліни», — написали дослідники.

Моделі ШІ випереджали людини-викладачі в кількох категоріях, зокрема в запитаннях на відтворення, пов’язаних із кейсами, кодом або доктриною, у гіпотетичних ситуаціях і під час дискусій щодо політики. У дослідженні перевіряли, чи переваги ШІ зумовлені поверхневим стилем письма, а не змістовою частиною: для цього аналізували лексико-синтаксичні ознаки, як-от довжина відповіді, структурна організація, нюансованість міркувань, юридичні “якорі”, тон упевненості, ясність і педагогічна підтримка.

В окремому аналізі додаткових моделей Anthropic Claude Opus 4.7 посів перше місце, за ним ішли OpenAI ChatGPT 5.4 та Gemini 2.5 Pro. Кожна оцінена модель ШІ в середньому перевершувала людини-викладачі.

Моделі ШІ фіксують нижчі показники шкідливості, ніж люди-викладачі

Відповіді, згенеровані ШІ, позначали як шкідливі рідше, ніж ті, що написали викладачі. Gemini зафіксувала показник шкідливості 3,41%, а NotebookLM — 3,64%, тоді як у людей-викладачів цей показник становив 12,06%.

Дослідники зазначили, що дослідження не вимірювало, чи відповіді відповідають індивідуальним уподобанням викладача. «Хоча відповіді LLM загалом отримують вищі оцінки порівняно з відповідями людей-викладачів, наше налаштування оцінювання не дає нам змоги напряму виміряти міру того, наскільки задовольняються уподобання викладачів», — йдеться в дослідженні. «Принаймні теоретично можливо, що хоча LLM загалом видають сильніші відповіді, вони все ж генерують відповіді, які просто вважають “достатньо хорошими”».

Суд у Лос-Анджелесі та юридичні школи впроваджують інструменти ШІ

Суперіорний суд Лос-Анджелеса розпочав тестування інструментів ШІ в березні, щоб допомогти суддям керувати дедалі більшим навантаженням справ. Юридичні школи додають навчальні програми з ШІ, оскільки правнича професія інтегрує штучний інтелект.

«Потенційні вигоди цих нових технологій як мультиплікатора сили в правовій практиці просто не можна ігнорувати», — заявив Decrypt декан Школи права Mississippi College John P. Anderson. «Незалежно від того, чи планують наші студенти бути літігаторами або транзакційними адвокатами, їхні майбутні роботодавці очікуватимуть знайомства з цими інструментами ШІ. Ми хочемо, щоб фірми, які наймають наших студентів, були впевнені: кожен випускник MC Law компетентний у технологіях ШІ».

Sullivan & Cromwell визнає фальшиві AI-цитування у заяві про банкрутство

Юридичні фірми й надалі стикаються зі справами, підірваними галюцинаціями та іншими помилками, згенерованими ШІ. У квітні юридична фірма Sullivan & Cromwell повідомила суду США у справах про банкрутство, що нещодавня заява в резонансній справі містила фальшиві цитування, згенеровані ШІ.

FAQ

Який відсоток часу викладачі права в дослідженні Стенфорда віддавали перевагу відповідям, згенерованим ШІ, над відповідями, написаними людьми?

У дослідженні Стенфорда викладачі права віддавали перевагу відповідям, згенерованим ШІ, приблизно у 75% випадків. Gemini 2.5 Pro від Google виграла 75,92% своїх протистоянь із відповідями від людини-викладача, тоді як NotebookLM вигравала у 74,75% випадків — у межах 2 918 засліплених порівнянь.

Як у дослідженні співвідносилися показники шкідливості відповідей, згенерованих ШІ, з відповідями людей-викладачів?

Відповіді, згенеровані ШІ, мали нижчі показники шкідливості, ніж відповіді людей-викладачів. Gemini мала показник шкідливості 3,41%, а NotebookLM — 3,64%, тоді як у людей-викладачів цей показник становив 12,06%.

Які інструменти ШІ тестує Суперіорний суд Лос-Анджелеса?

Суперіорний суд Лос-Анджелеса розпочав тестування інструментів ШІ в березні, щоб допомогти суддям керувати дедалі більшим навантаженням справ, хоча конкретні інструменти в джерелі не названі.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів