GPT-5.5 Regressa ao Estado da Arte na Codificação, mas a OpenAI Muda os Benchmarks Depois de Perder para o Opus 4.7

Gate News mensagem, 27 de Abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, publicou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal conclusão: GPT-5.5 marca o primeiro regresso da OpenAI ao estado da arte em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora a alternar entre Codex e Claude Code após antes dependerem quase exclusivamente de Claude. O GPT-5.5 baseia-se numa nova abordagem de pré-treinamento com o nome de código “Spud” e representa a primeira expansão do OpenAI da escala de pré-treinamento desde o GPT-4.5.

Em testes práticos, surgiu uma divisão clara de responsabilidades. Claude trata do planeamento de novos projectos e da configuração inicial, enquanto Codex se destaca em correcções de bugs que exigem raciocínio intensivo. O Codex mostra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades em inferir intenções de utilizador ambíguas. Numa tarefa única no mesmo painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex ignorou o layout mas entregou dados significativamente mais precisos.

A análise revela um detalhe de manipulação do benchmark: um post de Fevereiro da OpenAI incentivava a indústria a adoptar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado “Expert-SWE.” O motivo, escondido nas letras pequenas, é que o GPT-5.5 foi ultrapassado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do Mythos (77.8%), ainda não lançado da Anthropic.

Quanto ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de Março a Abril, afectando quase todos os utilizadores. Vários engenheiros tinham previamente reportado degradação de desempenho na versão 4.6 mas foram descartados como observações subjectivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, o que a Anthropic admitiu abertamente — constituindo, na prática, um aumento de preço oculto.

O DeepSeek V4 foi avaliado como “acompanhar o ritmo da fronteira mas não liderar,” posicionando-se como a alternativa de menor custo entre os modelos de código fechado. A análise também notou que “o Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita chinesa de alta dificuldade,” comentando que “o Claude venceu o modelo chinês na sua própria língua.”

O artigo introduz um conceito-chave: a precificação do modelo deve ser avaliada por “custo por tarefa” e não por “custo por token.” A precificação do GPT-5.5 é o dobro da do GPT-5.4 (input $5, output $30 por milhão de tokens), mas conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a razão input-para-output do Codex é de 80:1, inferior à do Claude Code, que é de 100:1.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Aumentar a produção com IA ou reduzir custos? Não houve dez vezes mais receitas, apesar de uma eficiência 100 vezes maior, mas ninguém em Silicon Valley se atreve a parar.

Os parceiros da Five Yuan Capital, Meng Xing, publicou recentemente um relatório de visita a Silicon Valley, apresentando um juízo que até o fez mudar o seu próprio hábito de tomar notas: Silicon Valley está a entrar numa fase em que até quem constrói ondas é arrastado por elas. A velocidade de iteração da IA já passou de “por mês” para “por semana”; até o próprio Silicon Valley já não consegue acompanhar-se a si próprio. Quando a IA aumenta a produtividade de uma equipa em cinco vezes, pode reduzir oito décimos do pessoal para manter a produção original, ou pode manter o número de pessoas para fazer cinco vezes mais. As observações de Meng Xing em Silicon Valley equivalem, no local, a um primeiro rascunho da resposta: quando 100 vezes de eficiência não se traduzem em 100 vezes de receitas, quando o orçamento de tokens está a aproximar-se dos custos de mão de obra, quando a máquina a vapor ainda não consegue correr mais do que a carroça, mas ninguém se atreve a parar, Silicon Valley está agora a escolher “antes de tudo, acelerar a velocidade”. Mas, no fim, este caminho acabará por conduzir à “capacidade de expansão” ou à “compressão de custos”; por agora, não há consenso. A YC passou de indicadores líderes para indicadores atrasados Meng Xing este ano

ChainNewsAbmedia4m atrás

Os parceiros da YC partilham como usar a IA para construir uma empresa do zero, e as startups devem encarar a IA como um sistema operativo e não como uma ferramenta

O impacto da IA nas start-ups já não se limita a fazer com que os engenheiros escrevam código mais rapidamente, a automatizar processos de atendimento ao cliente, ou a adicionar um Copilot a um produto existente. A sócia da YC, Diana, referiu recentemente que a verdadeira mudança está em que a IA está a reescrever «como uma empresa deve ser criada desde zero». Para os fundadores em fase inicial, a IA não deve ser apenas uma ferramenta de eficiência usada ocasionalmente pela empresa; deve ser desenhada, desde o primeiro dia, como um sistema operativo de toda a organização. A perspetiva de produtividade já está desatualizada, a IA está a reescrever o ponto de partida do design da empresa A Diana acredita que, quando o mercado fala de IA atualmente, continua demasiado frequentemente a ficar no quadro de «aumento de produtividade», por exemplo: os engenheiros podem programar mais depressa, as equipas podem automatizar mais processos, e a empresa pode lançar mais funcionalidades. Mas esta afirmação subestima, na verdade, a mudança estrutural trazida pela IA. Ela aponta que a combinação correta de pessoas com IA e…

ChainNewsAbmedia14m atrás

Agente do Cursor AI falhou! Uma linha de código apagou a base de dados da empresa em 9 segundos, a salvaguarda de segurança tornou-se conversa vazia

O fundador da PocketOS, Jer Crane, indicou que um agente de IA da Cursor executou, por conta própria, operações de manutenção no ambiente de testes, abusando de um Token de API para adicionar/remover domínios personalizados, lançando um comando de eliminação contra a API GraphQL da Railway. Em 9 segundos, os dados e os snapshots na mesma região ficaram completamente destruídos, podendo a recuperação mais recente ser feita apenas até três meses antes. O agente admitiu violar regras de operações irreversíveis, não ter lido a documentação técnica, não ter verificado a segregação do ambiente, entre outras. As vítimas foram clientes do setor de aluguer de automóveis: as reservas e os dados desapareceram por completo, e a reconciliação levou muito tempo. Crane propôs cinco reformas: confirmação manual, permissões de API mais granulares, separação entre backups e dados principais, divulgação de SLA e mecanismos obrigatórios ao nível subjacente.

ChainNewsAbmedia16m atrás

DeepSeek V4 Pro no Ollama Cloud: ligação num só clique do Claude Code

De acordo com os tweets da Ollama, o DeepSeek V4 Pro foi lançado em 24/4, já foi adicionado no diretório da Ollama em modo de cloud e, com um único comando, pode chamar ferramentas como Claude Code, Hermes, OpenClaw, OpenCode, Codex, etc. V4 Pro 1.6T params, 1M context, Mixture-of-Experts; a inferência em cloud não descarrega pesos para a máquina local. Para executar localmente, é necessário obter os pesos e correr com INT4/GGUF e GPUs multi-cartão. Os testes de velocidade iniciais foram influenciados pela carga do serviço em cloud, com um valor típico de ~30 tok/s e um pico de 1.1 tok/s; recomenda-se usar o protótipo em cloud e, para produção em larga escala, fazer inferência local ou usar uma API comercial.

ChainNewsAbmedia1h atrás

DeepSeek reduz preços do V4-Pro em 75%, corta custos de cache da API para um décimo

Mensagem de Notícias da Gate, 27 de Abril — A DeepSeek anunciou um desconto de 75% no seu novo modelo V4-Pro para programadores e reduziu os preços de acerto de cache de entrada em toda a sua gama de APIs para um décimo dos níveis anteriores. O modelo V4, lançado a 25 de Abril nas versões Pro e Flash, foi otimizado para os processadores Ascend da Huawei. A DeepSeek disse que o V4-Pro tem melhor desempenho do que outros modelos de código aberto em benchmarks de conhecimento do mundo e fica apenas em segundo lugar atrás do Gemini-Pro-3.1 da Google, um modelo proprietário. A família V4 foi concebida especificamente para agentes de IA a lidar com tarefas complexas além das capacidades de um chatbot. Os custos da API V4-Pro já ficam abaixo dos principais concorrentes ocidentais, com preços de $3.48 por milhão de tokens de saída em comparação com para o GPT-4.5 da OpenAI. A tabela de preços do V4-Flash está em $0.14 por milhão de tokens de entrada e $0.28 por milhão de tokens de saída, o que pode permitir aplicações economicamente eficientes, como rever bases de código inteiras ou documentos regulamentares em solicitações únicas.

GateNews1h atrás

Coachella recorre à IA DeepMind da Google para reinventar concertos além do palco

A Coachella fez parceria com a Google DeepMind para testar novas ferramentas de IA que transformam a forma como as actuações de música ao vivo são criadas e experienciadas. Resumo A Coachella testou ferramentas de IA com a Google DeepMind para transformar actuações ao vivo em ambientes digitais interactivos. Foram construídos três protótipos,

Cryptonews1h atrás
Comentar
0/400
Nenhum comentário