GPT-5.5 Regressa ao Estado da Arte na Codificação, mas a OpenAI Muda os Benchmarks Depois de Perder para o Opus 4.7

2026-04-27 05:17:43

Gate News mensagem, 27 de Abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, publicou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal conclusão: GPT-5.5 marca o primeiro regresso da OpenAI ao estado da arte em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora a alternar entre Codex e Claude Code após antes dependerem quase exclusivamente de Claude. O GPT-5.5 baseia-se numa nova abordagem de pré-treinamento com o nome de código "Spud" e representa a primeira expansão do OpenAI da escala de pré-treinamento desde o GPT-4.5.

Em testes práticos, surgiu uma divisão clara de responsabilidades. Claude trata do planeamento de novos projectos e da configuração inicial, enquanto Codex se destaca em correcções de bugs que exigem raciocínio intensivo. O Codex mostra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades em inferir intenções de utilizador ambíguas. Numa tarefa única no mesmo painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex ignorou o layout mas entregou dados significativamente mais precisos.

A análise revela um detalhe de manipulação do benchmark: um post de Fevereiro da OpenAI incentivava a indústria a adoptar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado "Expert-SWE." O motivo, escondido nas letras pequenas, é que o GPT-5.5 foi ultrapassado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do Mythos (77.8%), ainda não lançado da Anthropic.

Quanto ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de Março a Abril, afectando quase todos os utilizadores. Vários engenheiros tinham previamente reportado degradação de desempenho na versão 4.6 mas foram descartados como observações subjectivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, o que a Anthropic admitiu abertamente — constituindo, na prática, um aumento de preço oculto.

O DeepSeek V4 foi avaliado como "acompanhar o ritmo da fronteira mas não liderar," posicionando-se como a alternativa de menor custo entre os modelos de código fechado. A análise também notou que "o Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita chinesa de alta dificuldade," comentando que "o Claude venceu o modelo chinês na sua própria língua."

O artigo introduz um conceito-chave: a precificação do modelo deve ser avaliada por "custo por tarefa" e não por "custo por token." A precificação do GPT-5.5 é o dobro da do GPT-5.4 (input $5, output $30 por milhão de tokens), mas conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a razão input-para-output do Codex é de 80:1, inferior à do Claude Code, que é de 100:1.

Ver fonte

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

04-27 04:13

Executivo da Google DeepMind: Cada Empresa de Produtos de IA Deve Criar Benchmarks Personalizados

04-27 03:21

A OpenAI faz parceria com a MediaTek e a Qualcomm para desenvolver um processador de smartphone com IA; a Foxconn Connector deverá iniciar a produção em 2028

04-27 00:21

DeepSeek Atrasar o Lançamento do V4 para Optimizar para os Chips Ascend da Huawei

04-26 15:02

DeepSeek reduz os preços da cache de entrada para 1/10 do preço de lançamento; V4-Pro desce para 0,025 yuan por milhões de tokens

04-26 09:00

Baidu Qianfan Lança Suporte para Dia 0 do DeepSeek-V4 com Serviços de API

Análise aprofundada

A MediaTek garante uma grande encomenda da Google para a 8.ª geração de TPU! A fermentação impulsionada por ASIC beneficia três ações conceptuais

ChainNewsAbmedia04-27 03:57

O Agente de IA já consegue reproduzir autonomamente artigos académicos complexos: Mollick afirma que os erros se devem mais ao texto original humano do que à IA

ChainNewsAbmedia04-26 03:34

A DeepSeek lançou uma pré-visualização de código aberto da V4, com uma pontuação técnica de 3206, superando o GPT-5.4

Market Whisper04-24 05:38

Comentar

0/400

Nenhum comentário