Se olharmos sob a perspetiva de que "a inferência vai explodir", a posição do @inference_labs na verdade é bastante clara.



Quando o modelo deixa de se distinguir pelo tamanho dos parâmetros, a verdadeira variável passa a ser:
quantas inferências consegue fazer por unidade de tempo.
Não é sobre responder mais inteligentemente de uma só vez, mas sim se consegue pensar de forma contínua, de alta frequência e em paralelo.

Estrutura de pequeno modelo + múltiplos Agentes, essencialmente, é uma amplificação das chamadas de inferência.
Vários Agentes a correr simultaneamente, a verificar-se mutuamente, a dividir tarefas e a juntar resultados, consome não a "capacidade do modelo", mas sim o canal de inferência e a capacidade de throughput.

A Inference Labs não está a tentar competir pelo modelo em si, mas a resolver um problema mais fundamental:
Quando a inferência se torna algo como fluxo de pedidos, quem é que consegue sustentar essa estrada?

Isto é semelhante ao que aconteceu no início com o CPU, quando o gargalo passou a ser a memória, o barramento e o cálculo paralelo.
O poder de processamento não deixou de ser importante, mas a forma como é gerido e ampliado tornou-se ainda mais crucial.

Por isso, a Inference Labs parece estar a preparar o caminho para a próxima fase na utilização de IA,
não com um modelo a responder perguntas,
mas com um sistema de inferência a funcionar continuamente.

Os modelos não vão crescer infinitamente, mas a densidade da inferência vai aumentar cada vez mais.
Uma vez que esta tendência se confirme, o valor da infraestrutura está apenas a começar a ser avaliado.
@KaitoAI @Bybit_Web3
AGENT0.13%
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)