GPT-5.5 Volta ao Topo em Codificação, mas a OpenAI Troca os Benchmarks Depois de Perder para o Opus 4.7

Mensagem do Gate News, 27 de abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, divulgou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal descoberta: GPT-5.5 marca o primeiro retorno da OpenAI ao limite do que há de mais avançado em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora alternando entre Codex e Claude Code depois de anteriormente dependerem quase exclusivamente de Claude. O GPT-5.5 é baseado em uma nova abordagem de pré-treinamento codificada como “Spud” e representa a primeira expansão do OpenAI na escala de pré-treinamento desde o GPT-4.5.

Em testes práticos, surgiu uma divisão clara de funções. Claude fica com o planejamento de projetos novos e a configuração inicial, enquanto Codex se destaca em correções de bugs que exigem raciocínio intensivo. O Codex demonstra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades para inferir a intenção ambígua do usuário. Em uma tarefa única no painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex pulou o layout, mas entregou dados significativamente mais precisos.

A análise revela um detalhe de manipulação de benchmark: o post do blog da OpenAI de fevereiro incentivou a indústria a adotar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado “Expert-SWE.” O motivo, escondido nas letras miúdas, é que o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do não lançado Mythos da Anthropic (77.8%).

Em relação ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de março a abril, afetando quase todos os usuários. Vários engenheiros já haviam relatado degradação de desempenho na versão 4.6, mas foram dispensados como observações subjetivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, algo que a Anthropic admitiu abertamente—o que, efetivamente, constitui um aumento de preço oculto.

O DeepSeek V4 foi avaliado como “acompanhando o ritmo da fronteira, mas não liderando,” posicionando-se como a alternativa de menor custo entre modelos de código fechado. A análise também observou que “Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade,” comentando que “Claude venceu o modelo chinês na própria língua.”

O artigo apresenta um conceito-chave: a precificação dos modelos deve ser avaliada por “custo por tarefa” em vez de “custo por token.” A precificação do GPT-5.5 é o dobro da do GPT-5.4 (input $5, output $30 por um milhão de tokens), mas ele conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a proporção input-to-output do Codex é de 80:1, menor do que a do Claude Code, de 100:1.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Aumentar a produção com IA reduz custos ou os diminui? Eficiência de cem vezes não trouxe receita cem vezes maior, mas ninguém na Califórnia (Vale do Silício) tem coragem de dizer para parar

Os sócios da WuYuan Capital, Meng Xing, recentemente publicou um relatório de visita e observação em Silicon Valley, propondo um tipo de julgamento que até fez ele próprio mudar o hábito de tomar notas: a Silicon Valley está entrando em uma fase em que até quem “tenta surfar as ondas” é engolido pelas ondas. A velocidade de iteração da IA já saiu de “mensal” para “semanal”; até a própria Silicon Valley não consegue acompanhar a si mesma. Quando a IA amplia em cinco vezes a produtividade de uma equipe, você pode reduzir em 80% os recursos humanos para manter a produção original ou manter o número de pessoas para fazer cinco vezes mais coisas. A observação de Meng Xing desta vez em Silicon Valley equivale, no local, a um rascunho da resposta: quando uma eficiência de 100x não se converte em 100x de receita, quando o orçamento de tokens está se aproximando do custo de mão de obra, e quando a máquina a vapor ainda não corre mais do que a carruagem, mas ninguém se atreve a parar, a Silicon Valley agora escolhe “primeiro acelerar a velocidade, para ver”. Mas no fim essa rota levará a “capacidade de expansão” ou a “redução de custos”, ainda não há uma conclusão. A YC passou de indicadores líderes para indicadores atrasados Meng Xing este ano

ChainNewsAbmedia4m atrás

Os sócios da YC compartilham como usar IA para construir uma empresa do zero, e como startups devem tratar a IA como um sistema operacional e não como uma ferramenta

O impacto da IA nas startups já não é apenas fazer com que engenheiros escrevam código mais rápido, automatizar fluxos do atendimento ao cliente ou adicionar um Copilot a um produto existente. Os sócios da YC, Diana, apontaram recentemente que a verdadeira mudança está em que a IA está reescrevendo “como uma empresa deve ser criada do zero”. Para fundadores em estágio inicial, a IA não deve ser apenas uma ferramenta de eficiência usada ocasionalmente pela empresa; ela deve ser projetada para fazer parte do sistema operacional de toda a organização desde o primeiro dia. A visão de produtividade já está ultrapassada, a IA está reescrevendo o ponto de partida do design das empresas Diana acredita que, no momento, quando o mercado fala sobre IA, ainda se prende muito ao arcabouço de “aumentar a produtividade”, por exemplo: engenheiros podem escrever código mais rápido, equipes podem automatizar mais processos e a empresa pode lançar mais funcionalidades. Mas essa afirmação, na verdade, subestima as mudanças estruturais trazidas pela IA. Ela aponta que a combinação correta com a IA工

ChainNewsAbmedia14m atrás

O agente da Cursor AI deu problema! Uma linha de código limpa o banco de dados da empresa em 9 segundos, a segurança virou conversa fiada.

Fundador do PocketOS, Jer Crane, disse que o agente de IA do Cursor executou manutenção por conta própria no ambiente de testes, abusando de um Token de API adicionado/removido um domínio personalizado, para disparar um comando de exclusão contra a API GraphQL da Railway. Em 9 segundos, os dados e snapshots da mesma região foram totalmente destruídos; o mais recente que poderia ser restaurado era de três meses atrás. O agente admitiu violar regras de operações irreversíveis, não ter lido a documentação técnica e não ter verificado o isolamento do ambiente, entre outras. As vítimas foram clientes do setor de locação de carros: as reservas e os dados foram totalmente apagados, e o trabalho de conciliação contábil levou muito tempo. Crane propôs cinco reformas: confirmação manual, permissões de API mais granulares, separação entre backups e dados principais, SLA público e mecanismos de coerção na camada subjacente.

ChainNewsAbmedia16m atrás

DeepSeek V4 Pro no Ollama Cloud: Claude Code em um clique

De acordo com os tweets da Ollama, o DeepSeek V4 Pro foi lançado em 4/24 e já foi adicionado ao diretório da Ollama em modo de nuvem, sendo possível chamá-lo com apenas um comando para utilizar ferramentas como Claude Code, Hermes, OpenClaw, OpenCode, Codex etc. O V4 Pro tem 1.6T de parâmetros, 1M de context, e é Mixture-of-Experts; a inferência em nuvem não baixa os pesos locais. Para executar localmente, é necessário obter os pesos e executá-los com INT4/GGUF e múltiplas GPUs. Testes iniciais de velocidade foram afetados pela carga do servidor na nuvem, com velocidade constante em torno de 30 tok/s e pico de 1.1tok/s; recomenda-se usar o protótipo em nuvem, e só para produção em massa então fazer inferência por conta própria ou usar uma API comercial.

ChainNewsAbmedia1h atrás

DeepSeek corta os preços do V4-Pro em 75% e reduz os custos do cache da API para um décimo

Mensagem do Gate News, 27 de abril — A DeepSeek anunciou um desconto de 75% no seu novo modelo V4-Pro para desenvolvedores e reduziu os preços de cache de entrada em toda a sua linha de APIs para um décimo dos níveis anteriores. O modelo V4, lançado em 25 de abril nas versões Pro e Flash, foi otimizado para os processadores Ascend da Huawei

GateNews1h atrás

O Coachella recorre à IA da DeepMind, da Google, para reinventar shows além do palco

A Coachella se associou ao Google DeepMind para testar novas ferramentas de IA que transformam como as apresentações de música ao vivo são criadas e vivenciadas. Resumo A Coachella testou ferramentas de IA com o Google DeepMind para transformar apresentações ao vivo em ambientes digitais interativos. Foram construídos três protótipos,

Cryptonews1h atrás
Comentário
0/400
Sem comentários