Claude Fable 5: оцінка налагодження впала з 86,2 до 25,9 1 липня, але Arena.AI демонструє стабільну продуктивність.

За даними BridgeBench, показник налагодження Claude Fable 5 впав з 86,2 до 25,9 після його відновлення 1 липня, а рефакторинг знизився з 73,6 до 38,4. Однак зниження відображає новий класифікатор безпеки Anthropic, який спрямовує більшість завдань з кодування на Claude Opus 4.8, а не деградацію моделі. З 12 завдань налагодження лише три потрапили до Fable 5; класифікатор перехопив дев'ять за задумом, щоб запобігти джейлбрейк-експлойтам. Одночасне тестування людських уподобань Arena.AI серед тисяч сліпих голосів виявило, що продуктивність Fable 5 після відновлення залишилася майже незмінною: показники документів зросли на 34 пункти, а експертних текстів – на 25. Звичайні користувачі, які займаються творчим письмом, дослідженнями та аналізом, імовірно, помітять мінімальний вплив, тоді як розробники, що працюють із кодом, пов'язаним із безпекою, стикаються з частим резервним маршрутизуванням. Anthropic визнала, що класифікатори наразі закидають надто широку сітку, але не надала термінів удосконалення.
Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів