Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Launchpad
Chegue cedo ao próximo grande projeto de tokens
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Centro de Património VIP
Aumento de património premium
Gestão de património privado
Alocação de ativos premium
Fundo Quant
Estratégias quant de topo
Staking
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem inteligente
New
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos RWA
Gravar na pedra - ForkLog: criptomoedas, IA, singularidade, futuro
Como os chips de IA superam a “parede da memória”
Tradicionalmente, as GPUs de consumo são destinadas a jogos e renderização. No entanto, também podem realizar outras tarefas que exigem cálculos paralelos.
Por exemplo, numa GPU, é possível rodar um minerador PoW para mineração de criptomoedas, mas, devido à concorrência com hardware especializado, as fazendas de GPU tornaram-se uma solução para projetos de nicho.
Situação semelhante ocorre na área de IA. As placas gráficas tornaram-se a principal ferramenta de cálculo para redes neurais. Mas, à medida que a indústria evolui, há uma crescente procura por soluções especializadas para trabalhar com IA. A ForkLog analisou o estado atual de uma nova fase na corrida pela inteligência artificial.
Otimização de silício para IA
Existem várias abordagens para criar hardware especializado para tarefas de inteligência artificial.
As GPUs de consumo podem ser consideradas o ponto de partida na especialização. Sua capacidade de trabalhar com cálculos matriciais paralelos foi útil para implementar redes neurais e, especialmente, aprendizagem profunda, mas ainda há espaço para melhorias.
Um dos principais problemas da IA em GPU é a necessidade de mover constantemente grandes volumes de dados entre a memória do sistema e a GPU. Esses processos podem consumir mais tempo e energia do que os próprios cálculos úteis.
Outro problema das GPUs decorre de sua versatilidade. A arquitetura das placas gráficas é projetada para uma ampla gama de tarefas — desde renderização gráfica até cálculos de uso geral. Como resultado, alguns blocos de hardware acabam sendo redundantes para cargas de trabalho específicas de IA.
Uma limitação adicional é o formato dos dados. Historicamente, os processadores gráficos foram otimizados para operações com FP32 — números de ponto flutuante de 32 bits. Para inferência e treinamento, geralmente usam-se formatos de menor precisão: FP16 e BF16 de 16 bits, e inteiros INT4 e INT8.
Nvidia H200 e B200
Alguns dos produtos mais populares para inferência e treinamento são os chips H200 e os sistemas de servidor DGX B200 — que, na prática, representam GPUs “reforçadas” para data centers.
O principal elemento orientado para IA desses aceleradores são os núcleos tensoriais, destinados a operações matriciais extremamente rápidas, como treinamento de modelos e inferência em lote.
Para reduzir a latência no acesso aos dados, a Nvidia equipa suas placas com uma grande quantidade de memória de alto desempenho (HBM, High Bandwidth Memory). No H200, há 141 GB de HBM3e com uma largura de banda de 4,8 TB/s, enquanto no B200 esses números podem ser ainda maiores, dependendo da configuração.
Unidade de Processamento Tensor (TPU)
Em 2015, a Google desenvolveu a Unidade de Processamento Tensor (TPU) — um ASIC baseado em matrizes sístolicas, projetado para aprendizado de máquina.
A TPU passa os dados por uma matriz de blocos, cada um realizando uma operação matemática e transmitindo o resultado ao próximo. O acesso à memória ocorre apenas no início e no final da sequência de cálculos.
Essa abordagem permite gastar menos tempo e energia em cálculos de IA do que uma GPU não especializada, mas o trabalho com memória externa ainda é um fator limitante.
Cerebras
A empresa americana Cerebras encontrou uma maneira de usar uma única pastilha de silício como processador, ao contrário do que normalmente se faz, cortando-a em elementos menores para fabricar chips.
Em 2019, os desenvolvedores apresentaram seu primeiro Wafer-Scale Engine de 300 mm. Em 2024, a empresa lançou o processador aprimorado WSE-3, com uma pastilha de 460 mm e 900.000 núcleos.
Segundo os desenvolvedores, muitos modelos de inferência podem rodar com um único WSE-3. Para tarefas mais complexas, é possível montar um cluster com vários desses chips.
Groq LPU
A empresa Groq (não confundir com Grok da xAI) oferece seus próprios ASICs para inferência, baseados na arquitetura Language Processing Unit (LPU).
A inferência depende da geração sequencial de tokens: cada passo requer a finalização do anterior. Nesses casos, o desempenho depende mais da velocidade de um único fluxo do que do número de fluxos.
Ao contrário de processadores de uso geral e alguns dispositivos especializados em IA, a Groq não gera instruções de máquina durante a execução da tarefa. Cada operação é planejada antecipadamente em uma espécie de “cronograma” e vinculada a um momento específico do processamento.
Além disso, como outros aceleradores de IA, o LPU combina módulos de lógica e memória em um único chip para minimizar os custos de transferência de dados.
Taalas
Todos os exemplos acima envolvem alta programabilidade. O modelo e os pesos necessários são carregados na memória regravável. A qualquer momento, o operador pode carregar um modelo diferente ou fazer ajustes.
Com essa abordagem, o desempenho depende da disponibilidade, velocidade e volume de memória.
A Taalas foi além, decidindo “incorporar” um modelo específico com pesos prontos diretamente na arquitetura do transistor do chip.
O modelo, que normalmente é software, é implementado em hardware, eliminando a necessidade de um armazenamento de dados separado e seus custos associados.
Na sua primeira solução — a placa de inferência HC1 — a empresa usou o modelo aberto Llama 3.1 8B.
A empresa afirma um aumento de desempenho de várias ordens de magnitude em relação às GPUs, considerando consumo de energia e custo.
Por outro lado, essa abordagem tem uma limitação fundamental: não é possível atualizar o modelo sem substituir completamente o chip.
Ao mesmo tempo, a HC1 foi equipada com suporte ao LoRA — método de “ajuste fino” de LLMs por adição de pesos extras. Com a configuração correta, o modelo pode se tornar um especialista em uma área específica.
Outro desafio está no processo de design e fabricação dessas “modelos físicos”. Desenvolver ASICs é caro e pode levar anos. Em um setor de IA altamente competitivo, isso representa uma limitação significativa.
A Taalas afirma estar desenvolvendo um novo método de geração de arquitetura de processadores, que visa resolver esse problema. Um sistema automatizado transforma o modelo e os pesos em um projeto de chip pronto em uma semana.
Segundo a própria avaliação da empresa, o ciclo de produção, desde a obtenção de um novo modelo até a fabricação do chip físico, deve levar cerca de dois meses.
O futuro do inferência local
Novos chips especializados em IA são, sobretudo, utilizados em grandes instalações de data centers, fornecendo serviços em nuvem mediante pagamento. Soluções não triviais, até mesmo “modelos físicos” implementados diretamente no silício, não são exceção.
Para o consumidor, uma revolução tecnológica se traduz na redução de custos e na aceleração do processamento.
Ao mesmo tempo, o surgimento de chips mais simples, baratos e energeticamente eficientes cria condições para a popularização de soluções de inferência local.
Já existem chips especializados em IA em smartphones, laptops, câmeras de vigilância e até campainhas inteligentes. Eles permitem realizar tarefas localmente, com baixa latência, autonomia e privacidade.
A otimização radical, mesmo que às custas de flexibilidade na escolha e substituição do modelo, amplia significativamente as possibilidades desses dispositivos e possibilita integrar componentes de IA simples em produtos de baixo custo e produção em massa.
Se a maioria dos usuários começar a direcionar suas solicitações para modelos que operam em dispositivos locais, a carga sobre os data centers pode diminuir, reduzindo o risco de sobrecarga do setor. Talvez, assim, não seja necessário buscar caminhos radicais para aumentar a capacidade de cálculo — como lançá-la em órbita.