AI-дослідницька платформа Trakkr у червні опублікувала звіт, у якому протестувала шість основних моделей ШІ — ChatGPT, Claude, Gemini, Grok, Llama, DeepSeek — на предмет політичних упереджень у питаннях, пов’язаних із політикою та суспільством. Результати показали, що 4 з 6 моделей мають лівий ухил на економічній осі, Grok — єдина модель, що потрапила в правий діапазон, а Gemini виявилася найближчою до справжнього нейтралітету серед усіх шести моделей.
Методика вимірювання Trakkr: 12 питань, вимкнення пошуку в інтернеті та відкритий архів
Фреймворк вимірювання Trakkr ставив перед шістьма моделями однаковий набір із 12 питань, що охоплювали дві категорії: традиційні питання лівого‑правого поділу (легалізація наркотиків, пріоритет мультикультуралізму, відмова від викопного палива, податок на багатство, квоти на різноманітність) та суперечки навколо технологічного управління (видалення дезінформації, криміналізація мови ненависті, криптографічні лазівки, загальнонаціональна цифрова ідентифікація).
Під час тестування для всіх моделей було вимкнено функцію пошуку в інтернеті, щоб виміряти тенденції, закладені в самому навчанні моделей, а не зовнішню інформацію, отриману в реальному часі. Результати представлені на двовісній координатній карті: горизонтальна вісь — економічна (зліва направо), вертикальна — соціальна (від ліберальної до авторитарної). Координати кожної моделі взято з експертних опитувань політиків CHES 2024 та V‑Dem.
Повні вимірювальні числа шести моделей (оцінка економічної осі, стабільність, сила зміщення)
(Джерело: Trakkr)
Grok: +0,21 (єдиний правий), стабільність 57%, сила зміщення 97%, найближчий до Еммануеля Макрона.
ChatGPT: –0,29 (найбільший лівий ухил), стабільність 82%, сила зміщення 64%, найближчий до німецьких Зелених.
DeepSeek: –0,03, стабільність 67% (найнижча серед шістьох), сила зміщення 86%, найближчий до Австралійської лейбористської партії.
Llama: –0,06, стабільність 88%, сила зміщення 81%, найближчий до Новозеландської лейбористської партії.
Claude: –0,06, стабільність 82%, сила зміщення 19% (найнижча серед шістьох), найближчий до Новозеландської лейбористської партії.
Gemini: 0,00, стабільність 98% (найвища серед шістьох), сила зміщення 11%, найближчий до Австралійської лейбористської партії.
Розрив між заявленою позицією кожної моделі та фактичним виміряним положенням
Згідно з правилами вимірювання Trakkr, будь-яка ухильна відповідь на питання про самоідентифікацію політичної позиції зараховується як «заявлений нейтралітет». За цим критерієм розриви шести моделей такі:
· Фактичне виміряне значення Grok на 0,36 правіше за його заявлену позицію;
· Фактичне виміряне значення Claude на 0,34 лівіше за його заявлену позицію;
· ChatGPT і Llama обидві заявляють нейтралітет, але фактичні виміри показують ліве положення;
· DeepSeek заявляє нейтралітет, фактична координата відхиляється від центру на 0,01;
· Gemini заявляє нейтралітет, фактичний вимірювальний бал 0,00, розрив дорівнює нулю.
Поширені запитання
Чи можна результати вимірювань Trakkr незалежно перевірити третім сторонам?
Trakkr заявляє, що його база питань доступна для завантаження у відкритому коді, усі відповіді моделей постійно архівуються у відкритому доступі, і треті сторони можуть самостійно вводити ті самі питання, запускати процес оцінювання та перераховувати результати. Trakkr вважає це ключовою підставою для відтворюваності методології дослідження.
Що вимірюють показники «сила зміщення» та «стабільність»?
Сила зміщення вимірює, у якій частці тестових питань модель демонструє вимірювану стабільну тенденцію; стабільність вимірює ступінь узгодженості відповідей при повторному тестуванні того самого питання. Сила зміщення Grok у 97% означає, що він демонструє стабільний правий ухил майже в усіх питаннях; стабільність DeepSeek лише 67% означає, що те саме питання, поставлене двічі, може дати протилежні відповіді.
Що цей звіт говорить користувачам, які використовують моделі ШІ для отримання політичної чи новинної інформації?
Звіт Trakkr не дає нормативних рекомендацій, лише зазначає, що результати вимірювань показують: сам процес навчання моделей ШІ залишає тенденції в політичних питаннях, незалежно від того, яку позицію модель заявляє. На сайті Trakkr доступний повний аналіз та інтерактивний інструмент для самостійного позиціонування користувачів, щоб вони могли порівнювати результати.