GPT-5.5 Возвращается на Передний край в Кодинге, но OpenAI Меняет Бенчмарки После Поражения Opus 4.7

Gate News сообщение, 27 апреля — SemiAnalysis, фирма по анализу полупроводников и ИИ, опубликовала сравнительный бенчмарк ассистентов для программирования, включая GPT-5.5, Claude Opus 4.7 и DeepSeek V4. Ключевой вывод: GPT-5.5 знаменует собой первый возврат OpenAI на передний край в моделях для кодинга за последние шесть месяцев, при этом инженеры SemiAnalysis теперь чередуют между Codex и Claude Code после того, как ранее почти исключительно полагались на Claude. GPT-5.5 основана на новом подходе к предварительному обучению с кодовым названием “Spud” и представляет собой первое расширение масштаба предварительного обучения OpenAI со времён GPT-4.5.

При практических испытаниях проявилось явное разделение ролей. Claude отвечает за планирование новых проектов и первичную настройку, тогда как Codex особенно силён в исправлениях багов, требующих интенсивных рассуждений. Codex демонстрирует более сильное понимание структур данных и логических рассуждений, но испытывает трудности с тем, чтобы выводить неоднозначные намерения пользователя. В задаче на одной панели Claude автоматически воссоздал компоновку эталонной страницы, но сфабриковал большие объёмы данных, тогда как Codex пропустил компоновку, зато предоставил значительно более точные данные.

Анализ выявляет деталь манипуляции бенчмарком: февральский блог OpenAI призывал отрасль перейти на SWE-bench Pro как новый стандарт для бенчмарков кода. Однако в объявлении GPT-5.5 переход осуществлён на новый бенчмарк под названием “Expert-SWE.” Причина, спрятанная в мелком шрифте, заключается в том, что GPT-5.5 был обойдён Opus 4.7 на SWE-bench Pro и заметно уступил ненадлежащим образом не раскрытому Anthropic Mythos (77.8%).

Что касается Opus 4.7, Anthropic опубликовала разбор последствий через неделю после релиза, признав три ошибки в Claude Code, которые сохранялись в течение нескольких недель с марта по апрель, затрагивая почти всех пользователей. Ранее несколько инженеров сообщали о деградации производительности в версии 4.6, но их замечания были отклонены как субъективные. Кроме того, новый токенизатор Opus 4.7 увеличивает использование токенов до 35%, что Anthropic откровенно признала — фактически это означает скрытое повышение цены.

DeepSeek V4 оценили как “удерживающий темп с передним краем, но не ведущий,” позиционируя себя как самый бюджетный вариант среди закрытых моделей. Анализ также отметил, что “Claude по-прежнему превосходит DeepSeek V4 Pro в высокосложных задачах китайской письменности,” и прокомментировал, что “Claude выиграл у китайской модели на её родном языке.”

В статье вводится ключевая идея: цена модели должна оцениваться через “стоимость за задачу,” а не через “стоимость за токен.” Прайсинг GPT-5.5 вдвое выше, чем у GPT-5.4 (input $5, output $30 за миллион токенов), но он выполняет те же задачи, используя меньшее число токенов, поэтому фактическая стоимость не обязательно выше. Первичные данные SemiAnalysis показывают, что коэффициент входов к выходам у Codex составляет 80:1, что ниже, чем 100:1 у Claude Code.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

PayPal объявляет реорганизацию на три подразделения и нацеливается на $900M годовую экономию к концу 2027 года

30 апреля PayPal объявила о комплексной структурной реорганизации с разделением на три отдельные бизнес-единицы — Consumer, Small Business и Enterprise — с целью оптимизации операций и ускорения интеграции искусственного интеллекта. Компания оценивает, что реструктуризация обеспечит

GateNews1ч назад

Kaisar Network завершила $4 миллион в финансировании для децентрализованного уровня 1 вычислений для ИИ

По данным ChainCatcher, Kaisar Network — децентрализованная сеть Layer 1 для вычислений ИИ — завершила сбор средств в размере $4 млн на текущий момент, включая $1 млн в стратегическом раунде Pre-Seed. Среди инвесторов: Merov Capital, StoneBlock, WM Capital, Arche Fund, Q42 и Unicorn Ventures. Сеть

GateNews2ч назад

Финансовый директор OpenAI опровергает слухи о целевых показателях выручки, заявив, что компания работает на самом высоком уровне 1 мая

По данным Bloomberg, финансовый директор OpenAI Сара Фрайар опровергла слухи от 1 мая о том, что компания не достигла внутренних показателей по продажам и целевых показателей по пользователям. Фрайар заявила, что фирма реализует свои планы на самом высоком уровне, охарактеризовав спрос на продукты как «вертикальную стену». Она отметила, что выполнение

GateNews3ч назад

Советник Илона Маска раскрывает $974B -заявку xAI на активы некоммерческой структуры OpenAI в суде, усиливая новые вопросы

Согласно показаниям Джареда Бирчелла на 4-й день судебного процесса Маска против OpenAI, предложение xAI на 974 миллиарда долларов за активы OpenAI как некоммерческой организации было направлено на то, чтобы не позволить Сэму Альтману занижать стоимость активов во время реструктуризации OpenAI. Однако судья Йвонн Гонсалес Роджерс спросила, как Бирчалл мог представить сумму в 974 миллиарда долларов

GateNews4ч назад

Маск признаёт, что xAI использовала дистилляцию на моделях OpenAI во время судебного дня 4

По данным Beating и The Verge, на 4-й день судебного разбирательства между Маском и OpenAI адвокаты OpenAI выясняли, использовала ли xAI дистилляцию, чтобы улучшать свои модели с применением технологий OpenAI. Изначально Маск заявил, что «почти все компании в сфере ИИ делают это», но когда его попросили ответить прямо, он признал …acknow

GateNews4ч назад

66,3% сотрудников в США с высокой заработной платой используют инструменты ИИ на работе, показывает опрос Федеральной резервной системы

Согласно опросу Федеральной резервной системы, 66,3% сотрудников в США, зарабатывающих свыше $200 000 в год, использовали инструменты ИИ на работе в течение последних 12 месяцев по состоянию на 1 мая. Среди групп с более низкими доходами показатели использования заметно снижаются: 51,6% для тех, кто зарабатывает $100 000–$200 000, 40,2% для тех, кто зарабатывает $50 000–$100 000,

GateNews4ч назад
комментарий
0/400
Нет комментариев