Fable 5 зазнала 5 невдач у всіх найскладніших завданнях на іспиті UC Berkeley ALE, коштує на 4–12 разів більше, ніж конкуренти

Згідно з UC Berkeley RDI, оприлюднені цього тижня результати оцінювання Agents' Last Exam (ALE) демонструють 0% рівня успішності на найскладніших завданнях, які потребують тривалих міркувань і глибокої експертизи, серед усіх протестованих агентів ШІ, зокрема й нещодавно випущеного Fable 5. У розрізі вартості API за завданням Fable 5 стягував $15,70 — у 4 рази більше, ніж GPT-5.5 за $3,80, і в 12 разів більше, ніж Composer 2.5 за $1,33. Оцінювання охопило 55 професійних доменів із понад 1 500 завдань, підтверджених експертами, і з’ясувало, що агенти найчастіше зазнають невдачі, передчасно оголошуючи про успіх без перевірки результатів.
Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів