V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Chegando Perto do Desempenho do Opus 4.5

Mensagem da Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding do seu modelo V4-Pro. A empresa coletou aproximadamente 200 tarefas reais de engenharia de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em stacks de tecnologia incluindo PyTorch, CUDA, Rust e C++. Após filtragem rigorosa, 30 tarefas foram mantidas para a avaliação do benchmark.

O V4-Pro-Max alcançou uma taxa de aprovação de código de 67%, superando significativamente o Sonnet 4.5 em 47% e chegando perto do Opus 4.5 em 70%. No entanto, fica atrás do Opus 4.5 Thinking (73%) e do Opus 4.6 Thinking (80%), enquanto supera substancialmente o Haiku 4.5 em 13%.

Em uma pesquisa interna com 85 respondentes, todos os participantes relataram usar o V4-Pro para codificação agentic em fluxos de trabalho diários. 52% endossaram o V4-Pro como seu modelo principal padrão de codificação, 39% tenderam à aprovação, e menos de 9% expressaram desaprovação. Os problemas relatados incluíam erros de baixo nível, interpretação incorreta de prompts ambíguos e comportamento ocasional de excesso de pensamento.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Naver lança beta do AI Tab à medida que o Google Gemini entra no mercado de buscas da Coreia do Sul

Mensagem do Gate News, 24 de abril — A Naver anunciou o início de um beta fechado para o AI Tab, seu novo recurso de busca conversacional, após o lançamento do Gemini pela Google no Chrome na Coreia do Sul. O AI Tab aparecerá ao lado das abas de busca existentes da Naver, oferecendo aos usuários um espaço dedicado para consultas conversacionais

GateNews2m atrás

Contratação de Engenharia de IA na Índia dispara 59,5%, se expande além dos hubs de tecnologia

Relatório do Mercado de Trabalho de IA da LinkedIn 2026, divulgado em 24 de abril, descobriu que as contratações de engenharia de IA na Índia aumentaram 59,5% ano contra ano, marcando o ritmo mais rápido entre os mercados estudados pela plataforma. O crescimento foi impulsionado pela demanda se expandindo além dos centros tecnológicos estabelecidos. Cidades incluindo

CryptoFrontier22m atrás

Banco Commonwealth Reduz 120 Empregos Com a Expansão da IA

O Commonwealth Bank of Australia anunciou que vai cortar aproximadamente 120 empregos enquanto o maior banco do país revisa funções e amplia o uso de inteligência artificial, de acordo com a Bloomberg. Os cortes incluem 43 funções no Bankwest, na Austrália Ocidental, com seis cargos afetados pela automação. Isto é

CryptoFrontier31m atrás

A Cursor revela as razões do treinamento de XAI: o poder de computação ficou travado, e a SpaceX, por sua vez, detém opções de compra no valor de 60 bilhões de dólares

A Anysphere anunciou que o Cursor irá, com a xAI, usar a infraestrutura Colossus para treinar novos modelos e superar a limitação de capacidade de computação; a SpaceX propôs uma opção de aquisição de US$ 60 bilhões (aquisição total dentro de 2026), e, caso não dê certo, pagará aproximadamente US$ 10 bilhões como compensação de colaboração. As duas transações ocorrem ao mesmo tempo, remodelando quem pode treinar o Cursor e quem pode comprar o Cursor; o Cursor ainda permite muitos backends de modelos, mas, a longo prazo, o caminho depende de a SpaceX exercer o direito de aquisição.

ChainNewsAbmedia49m atrás

Avaliação no mercado secundário da Anthropic ultrapassa 1 trilhão de dólares: Forge Global supera a OpenAI em 880 bilhões

De acordo com a reportagem da Decrypt, a avaliação secundária da Anthropic da Forge Global é de cerca de 1 trilhão de dólares; a da OpenAI é de aproximadamente 8.800 bilhões de dólares, com uma reversão de liderança pela primeira vez no mercado secundário. O ARR da Anthropic passou de cerca de 9,0 bilhões no fim de 2025 para aproximadamente 30 bilhões em março de 2026; em três meses, cresceu 233%, elevando a avaliação privada. As avaliações no mercado secundário são diferentes dos financiamentos na rodada primária, refletindo a confiança na saída; no futuro, ainda se espera que quatro frentes — tecnologia, políticas, negócios e narrativa — continuem em foco.

ChainNewsAbmedia50m atrás

Meta Platforms Planeja Redução de 10% da Força de Trabalho em 20 de Maio, Afetando Aproximadamente 8.000 Posições

Mensagem do Gate News, 24 de abril — A Meta Platforms planeja reduzir sua força de trabalho em aproximadamente 10%, afetando cerca de 8.000 vagas, em 20 de maio. Os desligamentos têm a intenção de melhorar a eficiência operacional enquanto aumentam os investimentos em inteligência artificial. A reorganização planejada reflete a

GateNews1h atrás
Comentário
0/400
Sem comentários