Thinking Machines lança um modelo de interação com resposta de 200 ms e supera o GPT-Realtime-2.0

De acordo com a Beating, Thinking Machines, o laboratório fundado pela ex-CTO da OpenAI Mira Murati, lançou uma prévia de pesquisa de seu modelo Interaction, com processamento nativo em tempo real de áudio e vídeo e micro-respostas de 200 milissegundos. O modelo permite ouvir, ver e falar simultaneamente, com suporte a interrupções em tempo real por parte do usuário.

O modelo TML-Interaction-Small usa uma arquitetura MoE de 276 bilhões de parâmetros, com 12 bilhões de parâmetros ativados por inferência. Os dados oficiais mostram uma latência de alternância de turnos de fala de 0,40 segundos e uma pontuação FD-bench V1.5 de 77,8, ambas superando GPT-Realtime-2.0 e Gemini 3.1 Flash Live. Acesso limitado à prévia está planejado para os próximos meses.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários