Gravar na pedra - ForkLog: criptomoedas, IA, singularidade, futuro

Froklog

2026-03-11 14:48:14

# Esculpir na pedra

Como os chips de IA superam a “parede da memória”

Tradicionalmente, as GPUs de consumo são destinadas a jogos e renderização. No entanto, também podem realizar outras tarefas que exigem cálculos paralelos.

Por exemplo, numa GPU, é possível rodar um minerador PoW para mineração de criptomoedas, mas, devido à concorrência com hardware especializado, as fazendas de GPU tornaram-se uma solução para projetos de nicho.

Situação semelhante ocorre na área de IA. As placas gráficas tornaram-se a principal ferramenta de cálculo para redes neurais. Mas, à medida que a indústria evolui, há uma crescente procura por soluções especializadas para trabalhar com IA. A ForkLog analisou o estado atual de uma nova fase na corrida pela inteligência artificial.

Otimização de silício para IA

Existem várias abordagens para criar hardware especializado para tarefas de inteligência artificial.

As GPUs de consumo podem ser consideradas o ponto de partida na especialização. Sua capacidade de trabalhar com cálculos matriciais paralelos foi útil para implementar redes neurais e, especialmente, aprendizagem profunda, mas ainda há espaço para melhorias.

Um dos principais problemas da IA em GPU é a necessidade de mover constantemente grandes volumes de dados entre a memória do sistema e a GPU. Esses processos podem consumir mais tempo e energia do que os próprios cálculos úteis.

Outro problema das GPUs decorre de sua versatilidade. A arquitetura das placas gráficas é projetada para uma ampla gama de tarefas — desde renderização gráfica até cálculos de uso geral. Como resultado, alguns blocos de hardware acabam sendo redundantes para cargas de trabalho específicas de IA.

Uma limitação adicional é o formato dos dados. Historicamente, os processadores gráficos foram otimizados para operações com FP32 — números de ponto flutuante de 32 bits. Para inferência e treinamento, geralmente usam-se formatos de menor precisão: FP16 e BF16 de 16 bits, e inteiros INT4 e INT8.

Nvidia H200 e B200

Alguns dos produtos mais populares para inferência e treinamento são os chips H200 e os sistemas de servidor DGX B200 — que, na prática, representam GPUs “reforçadas” para data centers.

O principal elemento orientado para IA desses aceleradores são os núcleos tensoriais, destinados a operações matriciais extremamente rápidas, como treinamento de modelos e inferência em lote.

Para reduzir a latência no acesso aos dados, a Nvidia equipa suas placas com uma grande quantidade de memória de alto desempenho (HBM, High Bandwidth Memory). No H200, há 141 GB de HBM3e com uma largura de banda de 4,8 TB/s, enquanto no B200 esses números podem ser ainda maiores, dependendo da configuração.

Unidade de Processamento Tensor (TPU)

Em 2015, a Google desenvolveu a Unidade de Processamento Tensor (TPU) — um ASIC baseado em matrizes sístolicas, projetado para aprendizado de máquina.

Tensor Processing Unit 3.0. Fonte: Wikipedia. Em arquiteturas convencionais de processadores — CPU e GPU — cada operação envolve leitura, processamento e gravação de dados intermediários na memória.

A TPU passa os dados por uma matriz de blocos, cada um realizando uma operação matemática e transmitindo o resultado ao próximo. O acesso à memória ocorre apenas no início e no final da sequência de cálculos.

Essa abordagem permite gastar menos tempo e energia em cálculos de IA do que uma GPU não especializada, mas o trabalho com memória externa ainda é um fator limitante.

Cerebras

A empresa americana Cerebras encontrou uma maneira de usar uma única pastilha de silício como processador, ao contrário do que normalmente se faz, cortando-a em elementos menores para fabricar chips.

Em 2019, os desenvolvedores apresentaram seu primeiro Wafer-Scale Engine de 300 mm. Em 2024, a empresa lançou o processador aprimorado WSE-3, com uma pastilha de 460 mm e 900.000 núcleos.

Cerebras WSE-3 e dois chips Nvidia B200. Fonte: Cerebras. A arquitetura da Cerebras prevê a distribuição de blocos de memória SRAM próximos aos módulos de lógica na mesma pastilha de silício. Cada núcleo trabalha com seus próprios 48 KB de memória local, sem competir com outros núcleos pelo acesso.

Segundo os desenvolvedores, muitos modelos de inferência podem rodar com um único WSE-3. Para tarefas mais complexas, é possível montar um cluster com vários desses chips.

Groq LPU

A empresa Groq (não confundir com Grok da xAI) oferece seus próprios ASICs para inferência, baseados na arquitetura Language Processing Unit (LPU).

Chip Groq. Fonte: Groq. Uma das principais características dos chips Groq é a otimização para operações sequenciais.

A inferência depende da geração sequencial de tokens: cada passo requer a finalização do anterior. Nesses casos, o desempenho depende mais da velocidade de um único fluxo do que do número de fluxos.

Ao contrário de processadores de uso geral e alguns dispositivos especializados em IA, a Groq não gera instruções de máquina durante a execução da tarefa. Cada operação é planejada antecipadamente em uma espécie de “cronograma” e vinculada a um momento específico do processamento.

Além disso, como outros aceleradores de IA, o LPU combina módulos de lógica e memória em um único chip para minimizar os custos de transferência de dados.

Taalas

Todos os exemplos acima envolvem alta programabilidade. O modelo e os pesos necessários são carregados na memória regravável. A qualquer momento, o operador pode carregar um modelo diferente ou fazer ajustes.

Com essa abordagem, o desempenho depende da disponibilidade, velocidade e volume de memória.

A Taalas foi além, decidindo “incorporar” um modelo específico com pesos prontos diretamente na arquitetura do transistor do chip.

O modelo, que normalmente é software, é implementado em hardware, eliminando a necessidade de um armazenamento de dados separado e seus custos associados.

Na sua primeira solução — a placa de inferência HC1 — a empresa usou o modelo aberto Llama 3.1 8B.

Taalas HC1. Fonte: Taalas. A placa suporta precisão de bits baixos, até parâmetros de 3 e 6 bits, acelerando o processamento. Segundo a Taalas, o HC1 consegue processar até 17.000 tokens por segundo, sendo um dispositivo relativamente barato e de baixo consumo energético.

A empresa afirma um aumento de desempenho de várias ordens de magnitude em relação às GPUs, considerando consumo de energia e custo.

Por outro lado, essa abordagem tem uma limitação fundamental: não é possível atualizar o modelo sem substituir completamente o chip.

Ao mesmo tempo, a HC1 foi equipada com suporte ao LoRA — método de “ajuste fino” de LLMs por adição de pesos extras. Com a configuração correta, o modelo pode se tornar um especialista em uma área específica.

Outro desafio está no processo de design e fabricação dessas “modelos físicos”. Desenvolver ASICs é caro e pode levar anos. Em um setor de IA altamente competitivo, isso representa uma limitação significativa.

A Taalas afirma estar desenvolvendo um novo método de geração de arquitetura de processadores, que visa resolver esse problema. Um sistema automatizado transforma o modelo e os pesos em um projeto de chip pronto em uma semana.

Segundo a própria avaliação da empresa, o ciclo de produção, desde a obtenção de um novo modelo até a fabricação do chip físico, deve levar cerca de dois meses.

O futuro do inferência local

Novos chips especializados em IA são, sobretudo, utilizados em grandes instalações de data centers, fornecendo serviços em nuvem mediante pagamento. Soluções não triviais, até mesmo “modelos físicos” implementados diretamente no silício, não são exceção.

Para o consumidor, uma revolução tecnológica se traduz na redução de custos e na aceleração do processamento.

Ao mesmo tempo, o surgimento de chips mais simples, baratos e energeticamente eficientes cria condições para a popularização de soluções de inferência local.

Já existem chips especializados em IA em smartphones, laptops, câmeras de vigilância e até campainhas inteligentes. Eles permitem realizar tarefas localmente, com baixa latência, autonomia e privacidade.

A otimização radical, mesmo que às custas de flexibilidade na escolha e substituição do modelo, amplia significativamente as possibilidades desses dispositivos e possibilita integrar componentes de IA simples em produtos de baixo custo e produção em massa.

Se a maioria dos usuários começar a direcionar suas solicitações para modelos que operam em dispositivos locais, a carga sobre os data centers pode diminuir, reduzindo o risco de sobrecarga do setor. Talvez, assim, não seja necessário buscar caminhos radicais para aumentar a capacidade de cálculo — como lançá-la em órbita.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.