DeepSeek e Xiaomi cortam os preços dos modelos de IA em até 99%, enquanto laboratórios dos EUA aumentam os custos

DeepSeek e Xiaomi cortam preços de API enquanto laboratórios americanos aumentam taxas

A DeepSeek tornou permanente, em 22 de maio de 2026, o desconto de 75% no DeepSeek V4-Pro, fixando o preço de saída em US$ 0,87 por milhão de tokens. A Xiaomi seguiu em 26 de maio, reduzindo em até 99% os preços da API do MiMo-V2.5 para entradas em cache, com o modelo Pro agora em US$ 0,0036 por milhão de tokens para entrada em cache. As reduções de preço vêm de otimizações técnicas em frameworks de inferência e na arquitetura de KV cache. Os cortes chegaram quando a OpenAI dobrou os preços de saída do GPT-5.5 para US$ 30 por milhão de tokens no lançamento no fim de abril, e a Anthropic enviou o Claude Opus 4.7 com um novo tokenizador que gera até 35% mais tokens para o mesmo texto de entrada, o que pode inflar custos reais apesar de tabelas de preço inalteradas.

Mudanças permanentes de preços anunciadas

O DeepSeek V4-Pro agora custa US$ 0,435 de entrada e US$ 0,87 de saída por milhão de tokens. O desconto de 75%, antes previsto para expirar, ficou permanente mais cedo nesta semana. O MiMo-V2.5-Pro da Xiaomi corresponde ao mesmo valor de US$ 0,435/US$ 0,87 por milhão de tokens após os cortes de 26 de maio. Os acertos de cache para o MiMo-V2.5 caíram para US$ 0,0036 por milhão de tokens. O upgrade de faturamento da Xiaomi dá aos usuários 5 a 8 vezes mais tokens pelo mesmo preço. O plano Max a US$ 100 agora fornece 82 bilhões de tokens, acima dos 1,6 bilhão.

Implementação técnica por trás das reduções de preço

Fuli Luo, chefe do time MiMo da Xiaomi e ex-desenvolvedor central da DeepSeek que co-criou o DeepSeek-V2, publicou uma explicação técnica no X em 27 de maio. O framework de inferência agora oferece otimização hierárquica de KV cache para SWA. Testes do mecanismo de inferência em produção mostram que essa otimização aumenta a capacidade de tokens em cache em cerca de cinco vezes. O sistema reduz custos de armazenamento e processamento em torno de 80%. “Operando com esses novos preços reduzidos de API, nosso motor de inferência em produção está rodando perto da capacidade total, e ainda conseguimos essencialmente empatar,” escreveu Luo.

O DeepSeek V4 usa dois tipos de atenção intercalados: um que comprime cada quatro tokens para atenção seletiva e outro que colapsa a cada 128 tokens para contexto global. Com um milhão de tokens de contexto, o KV cache do V4-Pro tem 10% do tamanho do de seu antecessor. A inferência de um único token roda com 27% do custo computacional anterior.

Benchmarks de desempenho e preços comparativos

O DeepSeek V4-Pro marcou 80,6% no SWE-Verified. O Claude Opus 4.6 marcou 80,8% no mesmo benchmark que mede a resolução real de issues do GitHub. A diferença de preço entre os dois modelos é de 34x na saída. O DeepSeek V4-Pro é um modelo de 1,6 trilhão de parâmetros.

O Claude Opus 4.7 custa US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída. O GPT-5.5 opera a US$ 30 por milhão de tokens de saída, dobrando a taxa do antecessor. O Gemini 2.5 Pro fica em US$ 1,25 de entrada e US$ 10 de saída por milhão de tokens.

O MiniMax M2.7 custa US$ 0,30 de entrada e US$ 1,20 de saída por milhão de tokens. O Kimi K2.5 da Moonshot AI, com 76,8% no SWE-bench Verified, roda a US$ 0,60 de entrada e US$ 2,50 de saída. O GLM-5.1 da Z.AI superou o Claude Opus 4.6 em um benchmark de codificação no 2º trimestre de 2026. Quatro modelos frontier chineses foram lançados em uma janela de 12 dias no início de maio, todos com menos de um terço do custo por token do Opus 4.7. O custo do DeepSeek V4-Pro para tokens de entrada em cache é de US$ 0,003625 por milhão de tokens.

Posicionamento no mercado entre provedores

A diferença de preço do 2º trimestre de 2026 entre modelos frontier chineses e americanos varia de 15x a 30x, dependendo da comparação do modelo. Esse patamar existe antes de descontos em cache. A Anthropic manteve a tabela de preços do Claude Opus 4.7 inalterada, mas o enviou com um novo tokenizador que pode produzir até 35% mais tokens para o mesmo texto de entrada.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários