Se olharmos sob a perspetiva de que "a inferência vai explodir", a posição do @inference_labs na verdade é bastante clara.
Quando o modelo deixa de se distinguir pelo tamanho dos parâmetros, a verdadeira variável passa a ser: quantas inferências consegue fazer por unidade de tempo. Não é sobre responder mais inteligentemente de uma só vez, mas sim se consegue pensar de forma contínua, de alta frequência e em paralelo.
Estrutura de pequeno modelo + múltiplos Agentes, essencialmente, é uma amplificação das chamadas de inferência. Vários Agentes a correr simultaneamente, a verificar-se mutuamente, a dividir tarefas e a juntar resultados, consome não a "capacidade do modelo", mas sim o canal de inferência e a capacidade de throughput.
A Inference Labs não está a tentar competir pelo modelo em si, mas a resolver um problema mais fundamental: Quando a inferência se torna algo como fluxo de pedidos, quem é que consegue sustentar essa estrada?
Isto é semelhante ao que aconteceu no início com o CPU, quando o gargalo passou a ser a memória, o barramento e o cálculo paralelo. O poder de processamento não deixou de ser importante, mas a forma como é gerido e ampliado tornou-se ainda mais crucial.
Por isso, a Inference Labs parece estar a preparar o caminho para a próxima fase na utilização de IA, não com um modelo a responder perguntas, mas com um sistema de inferência a funcionar continuamente.
Os modelos não vão crescer infinitamente, mas a densidade da inferência vai aumentar cada vez mais. Uma vez que esta tendência se confirme, o valor da infraestrutura está apenas a começar a ser avaliado. @KaitoAI @Bybit_Web3
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Se olharmos sob a perspetiva de que "a inferência vai explodir", a posição do @inference_labs na verdade é bastante clara.
Quando o modelo deixa de se distinguir pelo tamanho dos parâmetros, a verdadeira variável passa a ser:
quantas inferências consegue fazer por unidade de tempo.
Não é sobre responder mais inteligentemente de uma só vez, mas sim se consegue pensar de forma contínua, de alta frequência e em paralelo.
Estrutura de pequeno modelo + múltiplos Agentes, essencialmente, é uma amplificação das chamadas de inferência.
Vários Agentes a correr simultaneamente, a verificar-se mutuamente, a dividir tarefas e a juntar resultados, consome não a "capacidade do modelo", mas sim o canal de inferência e a capacidade de throughput.
A Inference Labs não está a tentar competir pelo modelo em si, mas a resolver um problema mais fundamental:
Quando a inferência se torna algo como fluxo de pedidos, quem é que consegue sustentar essa estrada?
Isto é semelhante ao que aconteceu no início com o CPU, quando o gargalo passou a ser a memória, o barramento e o cálculo paralelo.
O poder de processamento não deixou de ser importante, mas a forma como é gerido e ampliado tornou-se ainda mais crucial.
Por isso, a Inference Labs parece estar a preparar o caminho para a próxima fase na utilização de IA,
não com um modelo a responder perguntas,
mas com um sistema de inferência a funcionar continuamente.
Os modelos não vão crescer infinitamente, mas a densidade da inferência vai aumentar cada vez mais.
Uma vez que esta tendência se confirme, o valor da infraestrutura está apenas a começar a ser avaliado.
@KaitoAI @Bybit_Web3