Nvidia lança o modelo de código aberto mais poderoso Nemotron 3 Ultra!
Focado em tarefas de IA, desempenho a crescer 5 vezes, redução de custos em 30%

Gigante dos chips, NVIDIA, anunciou hoje (4) o lançamento do novo modelo de código aberto de ponta, o «Nemotron 3 Ultra».
Este modelo foi especialmente desenvolvido para agentes de IA de longa duração e fluxos de trabalho complexos de múltiplos agentes, com um total de até 550 mil milhões de parâmetros.
Através da introdução de arquiteturas híbridas e várias inovações tecnológicas, o Nemotron 3 Ultra não só apresenta um desempenho excelente em múltiplos testes de referência, como também oferece um aumento de até 5 vezes na taxa de processamento, além de reduzir os custos das tarefas de agentes em 30%.
(Resumindo: Nvidia investe 400 milhões de dólares na aquisição da Kumo AI! Completa o puzzle dos «modelos preditivos empresariais», acelerando a transformação em um gigante de IA de ponta)
(Complemento de contexto: Nvidia alia-se à startup chinesa Yushu Technology Unitree! Jensen Huang promove a «plataforma de IA para robôs humanoides», visando o mercado físico de IA de dezenas de trilhões de dólares)

Índice deste artigo

Alternar

  • 550 bilhões de parâmetros ativos, transformando-se no «cérebro» do fluxo de trabalho de IA
  • Cinco principais inovações tecnológicas: aumento de 5 vezes na taxa de processamento, redução de 30%
  • Totalmente de código aberto, acelerando a implementação de IA empresarial

Na tendência de avanço da inteligência artificial (IA) rumo à automação avançada e fluxos de trabalho complexos, os custos de computação e os gargalos de eficiência dos «sistemas multi-agentes» tornaram-se o maior desafio para as empresas ao adotarem IA.
Para resolver esse problema, a NVIDIA lançou oficialmente, em 4 de junho de 2026, a linha de produtos de ponta da família Nemotron 3 — Nemotron 3 Ultra.

Este é um modelo de código aberto poderoso, projetado especificamente para «agentes de IA de longa duração».
Em fluxos de trabalho tradicionais de múltiplos agentes, devido à necessidade de repetir continuamente planejamento, chamadas de ferramentas, delegação de sub-agentes e manutenção de contextos extensos, o consumo de tokens (Tokens) costuma disparar, levando a custos elevados e riscos de desvio de objetivos.
O Nemotron 3 Ultra foi criado para superar esses desafios.

550 bilhões de parâmetros ativos, transformando-se no «cérebro» do fluxo de trabalho de IA

O Nemotron 3 Ultra utiliza uma arquitetura de especialistas mistos (Mixture-of-Experts, MoE), com um total de 5500 bilhões de parâmetros, mas apenas ativando 550 bilhões por operação, garantindo máxima eficiência.
Em fluxos de trabalho de múltiplos agentes, o modelo é precisamente posicionado como «Orquestrador» ou motor de raciocínio avançado, lidando com tarefas de planejamento profundo, análises complexas e validações lógicas de alta carga, delegando tarefas rotineiras e chamadas de ferramentas a modelos leves.

Em termos de desempenho, o Nemotron 3 Ultra destacou-se em diversos testes de referência focados em agentes de IA.
Por exemplo, obteve 91% de pontuação no PinchBench, uma métrica de produtividade de agentes, e alcançou 40% e 67% de desempenho superior em planejamento de longo prazo (EnterpriseOps-Gym) e codificação (Terminal-Bench 2.0), respectivamente.
Apesar de ativar menos parâmetros, sua capacidade de raciocínio geral já supera ou iguala modelos de código aberto de ponta no mercado, como GLM 5.1, Kimi K2.6 e Qwen3.5.

Cinco principais inovações tecnológicas: aumento de 5 vezes na taxa de processamento, redução de 30%

Para alcançar esse desempenho e velocidade impressionantes, a NVIDIA introduziu cinco inovações principais no Nemotron 3 Ultra.
Primeiro, a «camada híbrida Mamba-Transformer», que combina eficientemente a capacidade de processamento de sequências longas do Mamba com a precisão de recuperação de fatos do Transformer.
Segundo, o suporte ao «quantização NVFP4», permitindo que os pesos do modelo sejam implantados sem problemas em GPUs Hopper, Blackwell e Ampere, com uma melhoria de até 5 vezes na taxa de processamento em relação ao formato BF16 tradicional, especialmente na Blackwell.

Além disso, o modelo integra LatentMoE (roteamento eficiente de especialistas para cargas de trabalho complexas), previsão de múltiplos tokens (MTP, que prevê vários tokens futuros em uma única passagem para acelerar a geração de textos longos), e destilação online multi-professor (MOPD), entre outras tecnologias de ponta.
Essas inovações reduzem significativamente o consumo total de tokens durante a execução de tarefas, levando a uma redução de custos de tarefas de agentes empresariais em até 30%.

Totalmente de código aberto, acelerando a implementação de IA empresarial

Em termos de dados de treinamento, o Nemotron 3 Ultra baseia-se em uma vasta base de pré-treinamento com mais de 10 trilhões de tokens, além de incluir mais de 212 bilhões de tokens específicos de domínio (incluindo documentos jurídicos, textos no estilo Wikipedia e o código mais recente do GitHub).
A NVIDIA enfatiza que o modelo é totalmente de código aberto, com licença OpenMDW-1.1 altamente flexível, disponibilizando ao público completo os pesos do modelo, fórmulas de treinamento e pipelines de dados.

Atualmente, desenvolvedores podem obter e implantar o Nemotron 3 Ultra nas principais plataformas como Hugging Face, NVIDIA Build e NIM.
Com sua excelente capacidade de processamento de textos longos (atingindo 95% no teste Ruler @1M) e alta relação custo-benefício, espera-se que este modelo se torne uma ferramenta essencial para empresas impulsionarem automação de atendimento ao cliente, gestão da cadeia de suprimentos, segurança de TI e validação de design de chips.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado