Segundo Beating, a Nvidia lançou o seu modelo de linguagem grande (LLM) topo de gama Nemotron 3 Ultra a 4 de junho, com 550 mil milhões de parâmetros totais e 55 mil milhões de parâmetros ativos. O modelo pontua 48 no índice de inteligência da Artificial Analysis, tornando-se o modelo open-source dos EUA com melhor desempenho, em segundo lugar apenas ao Kimi K2.6, com 54 pontos.
O modelo utiliza uma arquitetura híbrida MoE Mamba-Transformer que alterna camadas de espaço de estados Mamba-2 com camadas de atenção Transformer, suportando uma janela de contexto de 1 milhão de tokens e evitando o crescimento quadrático do KV cache. Em comparação com modelos densos de escala semelhante, a arquitetura híbrida atinge 5x mais rendimento e 30% menos custos de inferência em tarefas de agentes. O Nemotron 3 Ultra está disponível no Hugging Face, NVIDIA NIM e OpenRouter.