GPT-5.5 повертається на передній край у кодуванні, але OpenAI змінює бенчмарки після поразки від Opus 4.7

Повідомлення Gate News, 27 квітня — SemiAnalysis, компанія з аналізу напівпровідників та ШІ, опублікувала порівняльний бенчмарк асистентів для кодування, зокрема GPT-5.5, Claude Opus 4.7 і DeepSeek V4. Ключовий висновок: GPT-5.5 означає перше повернення OpenAI на передній край у моделях для кодування за шість місяців, причому інженери SemiAnalysis тепер чергують між Codex і Claude Code після того, як раніше майже виключно покладалися на Claude. GPT-5.5 створено на основі нового підходу до попереднього навчання з кодовою назвою “Spud” і є першим розширенням масштабу попереднього навчання OpenAI з моменту GPT-4.5.

У практичному тестуванні чітко проявився розподіл ролей. Claude береться за планування нових проєктів та початкове налаштування, тоді як Codex найкраще справляється з виправленнями багів, що потребують інтенсивного осмислення. Codex демонструє сильніше розуміння структур даних і логічного міркування, але має труднощі з тим, щоб вгадувати неоднозначні наміри користувача. В одній задачі на єдиній панелі керування Claude автоматично відтворив макет сторінки-зразка, але сфабрикував великі обсяги даних, тоді як Codex пропустив макет, зате видав значно точніші дані.

Аналіз виявляє деталь маніпуляції бенчмарком: у лютневому блозі OpenAI закликав індустрію перейти на SWE-bench Pro як новий стандарт для бенчмарків кодування. Однак у повідомленні про GPT-5.5 перехід здійснили на новий бенчмарк під назвою “Expert-SWE.” Причина, захована в дрібному шрифті, полягає в тому, що GPT-5.5 було випереджено Opus 4.7 на SWE-bench Pro і він суттєво відстав від неопублікованого Mythos (77.8%) від Anthropic.

Щодо Opus 4.7: Anthropic опублікувала постмортем-аналіз через тиждень після релізу, визнавши три баги в Claude Code, які зберігалися протягом кількох тижнів з березня по квітень, впливаючи майже на всіх користувачів. Раніше кілька інженерів повідомляли про погіршення продуктивності в версії 4.6, але їх відхилили, назвавши суб’єктивними спостереженнями. Крім того, новий токенізатор у Opus 4.7 збільшує використання токенів до 35%, що Anthropic прямо визнав — по суті, це приховане підвищення ціни.

DeepSeek V4 оцінили як “дотримання темпу з переднім краєм, але без лідерства,” позиціонуючи його як найдешевшу альтернативу серед моделей із закритим кодом. Аналіз також зазначив, що “Claude продовжує випереджати DeepSeek V4 Pro у завданнях із високою складністю китайського письма,” коментуючи, що “Claude переміг китайську модель у її власній мові.”

У статті вводиться ключова ідея: ціноутворення моделей слід оцінювати за “вартістю за задачу” замість “вартості за токен.” Ціна GPT-5.5 удвічі вища за ціну GPT-5.4 (input $5, output $30 per million tokens), але він виконує ті самі завдання, використовуючи менше токенів, тож фактична вартість не обов’язково вища. Початкові дані SemiAnalysis показують, що співвідношення вхідних і вихідних даних у Codex становить 80:1, що нижче, ніж у Claude Code — 100:1.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Порадна особа Маска розкриває $974B -заявку xAI на активи неприбуткової організації OpenAI в суді, викликаючи нову хвилю перевірок

Згідно зі свідченням Джареда Бірчелла на 4-й день судового процесу проти Musk щодо OpenAI, заявка xAI на 974 мільярди доларів на неприбуткові активи OpenAI була спрямована на те, щоб не допустити, аби Сем Альтман занизив вартість активів під час реструктуризації OpenAI. Втім, суддя Івонн Гонсалес Роджерс поставила під сумнів те, як Бірчелл міг представити $974 b

GateNews1год тому

Маск визнав, що xAI застосувала дистиляцію на моделях OpenAI під час четвертого дня судового процесу

Згідно з Beating і The Verge, на четвертий день судового процесу між Маском і OpenAI адвокати OpenAI запитали, чи використовувала xAI дистиляцію, щоб удосконалити свої моделі, застосовуючи технології OpenAI. Спершу Маск заявив, що «майже всі компанії зі штучним інтелектом роблять це», але коли його попросили дати пряму відповідь, він визнав

GateNews1год тому

66,3% працівників США з високими доходами використовують інструменти ШІ на роботі, показує опитування Федеральної резервної системи

Згідно з опитуванням Федеральної резервної системи, 66,3% працівників у США з доходом понад $200 000 на рік використовували інструменти ШІ на роботі протягом останніх 12 місяців станом на 1 травня. Серед груп із нижчими доходами рівень використання істотно знижується: 51,6% для тих, хто заробляє $100 000–$200 000, 40,2% для тих, хто заробляє $50 000–$100

GateNews1год тому

xAI запускає API Grok 4.3 із контекстним вікном на 1 млн токенів за $1,25 за мільйон вхідних токенів

За даними BlockBeats, xAI запустила API Grok 4.3 1 травня. Нова модель підтримує контекстне вікно на 1 мільйон токенів і пропонує текстові введення/виведення, мультимодальні можливості та функції виклику інструментів. API Grok 4.3 коштує 1,25 долара за мільйон вхідних токенів

GateNews1год тому

Американські техгіганти планують витратити $700B на інфраструктуру для ШІ у 2026 році, що суттєво перевищить $105 млрд Китаю

За даними South China Morning Post, американські технологічні гіганти мають витратити понад $700 мільярдів на інфраструктуру ШІ цього року, що значно перевищує китайських конкурентів. Google, Microsoft, Meta та Amazon формують більшу частину цієї суми, тоді як Morgan Stanley оцінив, що китайські хмарні провайдери витратять приблизно $105 мільярдів

GateNews1год тому

Huawei очікує, що виручка від AI-чипів у 2026 році сягне 12 мільярдів доларів, що на 60% більше, ніж у 2025 році

За даними Reuters, Huawei очікує, що виручка від її AI-чипів у 2026 році досягне приблизно $12 мільярдів, що становить щонайменше 60% зростання порівняно з $7,5 мільярда у 2025 році. Більшість замовлень цього року стосуються процесора Ascend 950PR, який вийшов на масове виробництво в березні. Компанія планує запустити

GateNews2год тому
Прокоментувати
0/400
Немає коментарів