Дані викривають, що «Claude знижає рівень» — це не міський міф; нестабільність AI-моделі є ризиком для компанії

Після того, як ШІ став стандартним інструментом для підприємств, на поверхню швидко виходить явище, яке раніше вважали «проблемою відчуттів»: LLM (великі мовні моделі) «стають тупішими». Користувач Wisely Chen зазначив, що так зване «LLM-«пониження розуму»» — це не міський міф, а те, що вже можна постійно відстежувати за допомогою даних, і воно вже спричиняє відчутний вплив на робочі процеси компаній.

Він наводить приклад зі власного досвіду: 15 квітня в сервісах лінійки Claude від Anthropic стався повсюдний downgrade, зокрема claude.ai, API та Claude Code — усі вони показували «Degraded Performance». Це не просто уповільнення або поодинокі помилки, а помітне падіння якості відповідей; навіть траплялися випадки, коли сервіс неможливо було нормально використовувати, через що того дня всі три його розробницькі завдання було повністю перенесено.

За таких сценаріїв для індивідуальних розробників це, можливо, лише зниження ефективності, але для команд IT підприємств вплив багаторазово посилюється. Коли в команді кілька інженерів одночасно покладаються на інструменти ШІ для програмування, написання документів і автоматизації процесів, один раз — і модель знижується в якості — означає, що загальна продуктивність в той самий час падає колективно, перетворюючись на відчутні втрати часу та витрат.

ШІ відчутно «стало гірше з розумом»? Дані підтверджують: це сталося «давно»

Wisely Chen зазначив, що фрази на кшталт «GPT став тупішим», «Claude не такий, як раніше» ходять у спільноті давно, але довго бракувало об’єктивних даних, які б це підтверджували. Лише нещодавно поява платформ із постійним моніторингом якості моделей дозволила вперше це кількісно оцінити.

Зокрема, StupidMeter проводить 24-годинні автоматизовані тести для популярних моделей, включно з OpenAI, Anthropic, Google тощо, відстежуючи такі показники, як точність, здатність до міркувань і стабільність. На відміну від традиційних разових benchmark-ів, такі системи ближчі до підходу до моніторингу API або доступності сервісів у компаніях: спостерігають, як модель «плаває» за продуктивністю в умовах реального використання.

Результати даних дуже показові: наразі більшість основних моделей перебувають у стані попередження або downgrade, і лише небагато моделей зберігають нормальний режим. Це означає, що нестабільність якості моделей — не проблема одного конкретного продукту, а поширене явище всієї індустрії.

LLM непомітно «деградує в інтелекті», впливаючи на стабільність бізнесу, який використовує AI-процеси

Для підприємств такі зміни означають, що ШІ з «інструмента для підвищення ефективності» перетворюється на «змінну, яка впливає на стабільність». Якщо щоденні робочі процеси компанії — від написання програм до code review, а також випуск документів і аналітичних звітів — уже значною мірою залежать від LLM, то коли модель в один день демонструє падіння здатності до міркувань або погіршення якості відповідей, ці проблеми не виникатимуть локально, як звичайні баги традиційного програмного забезпечення: вони проникатимуть одночасно в усі етапи, де використовують ШІ.

Ще важливіше те, що такі коливання часто важко прогнозувати і так само важко вчасно помітити. У більшості компаній немає механізмів постійного моніторингу якості моделей; зазвичай вони усвідомлюють, що проблема походить саме від моделі, лише після того, як результати стають аномальними або знижується ефективність команди. За такої ситуації «пониження розуму» вже не є лише суб’єктивним відчуттям користувачів — це системний ризик, який безпосередньо впливає на ритм роботи та функціонування підприємства.

Коли ШІ стає як вода й електрика, стабільність стає новим ключовим показником

Wisely Chen порівняв роль LLM із «водою й електрикою сучасної компанії». Коли ШІ глибоко вбудувався в щоденну діяльність і став незамінною базовою здатністю, значення стабільності зростає ще більше.

Раніше, оцінюючи інструменти ШІ, компанії більше фокусувалися на можливостях моделі, ціні та функціях, але коли на поверхню спливає явище «пониження розуму», з’являється інший, ще важливіший показник — стабільність. Якщо якість моделі може змінюватися без попередження, компанії більше не просто «використовують ШІ» — їм доводиться брати на себе новий тип ризику для базової інфраструктури. І ще безнадійніше те, що якщо дивитися лише на передові великі мовні моделі, то майже напевно, доки не буде вирішено проблеми з обчислювальними ресурсами, це може продовжуватися.

Ця стаття «Дані: “Claude став тупішим” — це не міський міф, а нестабільність AI-моделей є ризиком для підприємств» вперше з’явилася на «Ланцюжкових новинах ABMedia».

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Google запускає Deep Research Max: підтримка MCP, можливість підключення до корпоративних приватних даних

Згідно з офіційним оголошенням у блозі Google DeepMind, Google 21 квітня 2026 року запустила нове покоління автономних дослідницьких агентів Deep Research і Deep Research Max, побудованих на Gemini 3.1 Pro, як офіційну версію після preview-версії, яку в грудні 2025 року було надано через Interactions API. Наразі обидва агенти доступні у формі public preview у платних тарифах Gemini API, і Google Cloud стартапи та корпоративні користувачі згодом отримають доступ. Однакові назви, але різне позиціонування варіантів: інтерактивні vs асинхронні глибокі дослідження Google розділяє ці два агенти за сценаріями використання: Deep Research

ChainNewsAbmedia1год тому

Щомісячні активні користувачі OpenAI Codex досягли 4 мільйонів менш ніж за два тижні

OpenAI Codex досяг 4 мільйонів MAU, оголосили Соттіо та Альтман; стрибок стався менш ніж за два тижні з 3 мільйонів, а ліміти швидкості було скинуто на всіх рівнях, щоб відсвяткувати. OpenAI Codex досяг 4 мільйонів щомісячних активних користувачів менш ніж за два тижні після досягнення 3 мільйонів, згідно із заявами керівників OpenAI. Щоб відзначити цю віху, ліміти швидкості на всіх рівнях було скинуто.

GateNews3год тому

Два південноафриканські AI-стартапи відібрано для Google for Startups Accelerator Africa, клас 10

Два стартапи з ПАР, Loop і Vambo AI, долучаються до 10-го набору акселератора Google Accelerator Africa від 2 600 заявок; Loop покращує мобільність/платежі, Vambo AI дає змогу багатомовному ШІ; програма триватиме з квітня по червень 2026 року з менторами та AI-мастернями. Анотація: Два південноафриканські стартапи, Loop і Vambo AI, були відібрані для 10-го набору Google for Startups Accelerator Africa, обраного з приблизно 2 600 заявок і одного з 15 африканських учасників. Loop оцифровує мобільність і платежі, тоді як Vambo AI надає багатомовну інфраструктуру ШІ для перекладу, мовлення та генеративного ШІ в межах африканських мов. Програма 2026 року триватиме з 13 квітня до 19 червня та пропонує менторство і практичні майстерні, зосереджені на ШІ/ML. З 2018 року акселератор підтримав 106 стартапів із 17 африканських країн, допомігши їм залучити понад $263 мільйонів і створити більш ніж 2 800 робочих місць.

GateNews4год тому

Список Forbes AI 50: 20 нових компаній; OpenAI та Anthropic отримують 80% від загального фінансування

Повідомлення Gate News, 21 квітня — Forbes опублікував свій список AI 50 за 2026 рік, восьме видання, що містить 20 компаній, які вперше увійшли до переліку. OpenAI та Anthropic і надалі очолюють рейтинги, притягуючи значні кошти від провідних венчурних інвесторів Кремнієвої долини та великих технологічних компаній. Сукупне фінансування для всіх компаній зі списку досягло $305.6 млрд, при цьому OpenAI та Anthropic становлять $242.6 млрд — приблизно 80% від загального обсягу.

GateNews4год тому

Zi变量 представляє модель втіленого ШІ WALL-B; роботи ввійдуть у реальні домівки за 35 днів

Повідомлення Gate News, 21 квітня — Zibianliang (自变量), китайська робототехнічна компанія, провела пресконференцію 21 квітня, щоб представити свою наступну генерацію фундаментальної моделі втіленого ШІ, WALL-B. Компанія оголосила, що роботи, які працюватимуть на WALL-B, за 35 днів потраплять у реальні домівки. Згідно з Zibianliang співзасновником

GateNews5год тому

OpenAI Готує Функцію Agents для ChatGPT, Кодова Назва Hermes

Повідомлення Gate News, 21 квітня — OpenAI готує нову функцію Agents для ChatGPT, кодова назва "Hermes," за даними Тібора Блахо, який відстежує оновлення продуктів ШІ. Функція включає новий конструктор агентів під назвою "studio," який дозволяє користувачам створювати агентів із шаблонів, планувати запуски, та

GateNews5год тому
Прокоментувати
0/400
Немає коментарів