A equipa da Alibaba Qwen apresentou na terça-feira o Qwen-Robot Suite, um conjunto de três modelos fundacionais concebidos para impulsionar a navegação, a manipulação e a simulação do mundo baseada em física através de uma pilha de software unificada. A empresa anunciou o conjunto no Twitter a 16 de junho de 2026, posicionando a tecnologia como aquilo a que chama um “full stack para inteligência incorporada”. A Alibaba desenvolveu os modelos para responder a um desafio central da robótica: enquanto os agentes de IA atualmente dependem de grandes modelos de linguagem para a tomada de decisões, os robôs físicos necessitam de sistemas de IA generativa capazes de lidar com modos de falha baseados em física, em vez de raciocínio guiado por prompts. O lançamento representa a estratégia de integração vertical da Alibaba que abrange chips, infraestruturas de cloud, modelos de IA e aplicações, com a robótica a servir como a expressão mais física do desenvolvimento de IA incorporada na China.
O Qwen-Robot Suite é composto por três modelos fundacionais, cada um responsável por um aspeto distinto da inteligência robótica. O Qwen-RobotNav trata de tarefas de mobilidade e navegação. O Qwen-RobotManip aborda a manipulação e a interação física com objetos. O Qwen-RobotWorld simula a física que possibilita tanto a navegação como a manipulação. Segundo a Alibaba, cada modelo funciona de forma independente ao mesmo tempo que forma uma pilha de software coesa quando combinados. A empresa descreve a arquitetura como a camada de sistema operativo para robótica, e não como hardware.
O Qwen-RobotNav unifica cinco tarefas de navegação num único modelo: seguir instruções, navegação até ponto-alvo, pesquisa de objetos, rastreio de alvos e condução autónoma. O modelo expõe uma interface parametrizada com um orçamento de tokens configurável, decaimento temporal e pesos por câmara que um planeador pode reconfigurar durante a operação. A Alibaba treinou o modelo com 15,6 milhões de amostras com randomização em todos os parâmetros.
O Qwen-RobotManip aborda o desafio das representações de ações incompatíveis entre diferentes plataformas robóticas. Um braço Franka opera através de ângulos articulares, enquanto um robô ALOHA representa ações através da posição e orientação do gripper. Os robôs humanoides usam coordenadas de corpo inteiro. A Alibaba sintetizou aproximadamente 38.100 horas de dados de treino a partir de conjuntos de dados robóticos de código aberto e vídeos de humanos para fazer a ponte entre estes espaços de ações incompatíveis.
O Qwen-RobotWorld funciona como um modelo de mundo por vídeo condicionado por linguagem, tratando a linguagem natural como uma interface universal de ações. O modelo processa comandos como “Pega no copo vermelho e deita água na flor” em diferentes tipos de robôs, incluindo grippers, veículos autónomos e agentes de navegação móvel. O corpus Embodied World Knowledge abrange 8,6 milhões de pares vídeo-texto, totalizando 200 milhões de frames, em cenários de manipulação, condução autónoma, navegação interior e transferência humano-para-robô.
O Qwen-RobotNav obteve 76,5% de sucesso no VLN-CE RxR, um benchmark para navegação por visão e linguagem em ambientes do mundo real. O modelo também atingiu 90% de desempenho de rastreio no EVT-Bench, que avalia a capacidade de um agente seguir consistentemente alvos em movimento.
O Qwen-RobotManip fica em primeiro lugar na RoboChallenge Table30-v1, superando abordagens anteriores em 20%. O desempenho do modelo resulta da sua abordagem centrada no alinhamento para treino de cross-embodiment.
O Qwen-RobotWorld fica em primeiro lugar no EWMBench e no DreamGen Bench, dois benchmarks que avaliam se os modelos de mundo predizem e geram ambientes físicos realistas. O modelo bate todos os modelos de código aberto no WorldModelBench e no PBench. A Alibaba afirma que o modelo obtém pontuações perfeitas em testes de adesão à física que cobrem as leis de Newton, conservação de massa, dinâmica de fluidos e gravidade.
A Alibaba treinou o Qwen-RobotNav em 15,6 milhões de amostras com randomização nos parâmetros de navegação. A empresa não divulgou os conjuntos de dados específicos usados para o treino de navegação.
Para o Qwen-RobotManip, a Alibaba sintetizou aproximadamente 38.100 horas de dados de treino a partir de conjuntos de dados robóticos de código aberto e vídeos humanos. A empresa afirmou que não recorreu a recolha de dados proprietária para o treino do modelo de manipulação.
O corpus Embodied World Knowledge do Qwen-RobotWorld contém 8,6 milhões de pares vídeo-texto, abrangendo 200 milhões de frames. O corpus inclui 5,9 milhões de amostras de manipulação cobrindo 1.300+ competências em 20+ morfologias de robôs. Os dados de condução autónoma vêm dos conjuntos Waymo, NVIDIA PhysicalAI-AD e Bench2Drive. Os dados de navegação interior derivam do VLNVerse. Os dados de transferência humano-para-robô cobrem 14 braços robóticos.
A Alibaba afirmou que a implantação de robôs no mundo real está a anos de distância. A empresa reconheceu a lacuna entre ambientes de demonstração controlados e operação fiável no mundo real. RoboCasa365, LIBERO-Plus e RoboTwin-Clean2Rand são benchmarks de simulação, e não cenários de implantação no mundo real. A implantação no mundo real introduz ruído nos sensores, deriva nos atuadores e casos-limite que a Alibaba identifica como desafios em curso.
Os modelos são sistemas de software concebidos para correr em hardware de fabricantes incluindo AgileX, Franka, Universal Robots e Unitree. A Alibaba não divulgou preços, prazos específicos de implantação, nem quais clientes terão acesso para além de programas-piloto.
O que é que a Alibaba anunciou a 16 de junho de 2026?
A equipa da Alibaba Qwen anunciou o Qwen-Robot Suite na terça-feira, 16 de junho de 2026, composto por três modelos fundacionais: Qwen-RobotNav para navegação, Qwen-RobotManip para manipulação e Qwen-RobotWorld para simulação do mundo baseada em física. A empresa posicionou o conjunto como uma pilha de software unificada para inteligência incorporada em robótica.
Que resultados de benchmarks alcançaram os modelos Qwen-Robot?
O Qwen-RobotNav obteve 76,5% de sucesso no VLN-CE RxR e 90% no EVT-Bench. O Qwen-RobotManip fica em primeiro lugar na RoboChallenge Table30-v1, superando abordagens anteriores em 20%. O Qwen-RobotWorld fica em primeiro lugar no EWMBench, DreamGen Bench, WorldModelBench e PBench entre modelos open-source, com pontuações perfeitas em testes de adesão à física.
Quando é que os modelos Qwen-Robot serão implementados em robôs no mundo real?
A Alibaba afirmou que a implantação de robôs no mundo real está a anos de distância. A empresa não divulgou prazos específicos, preços, nem quais clientes terão acesso para além de programas-piloto.
Notícias relacionadas
SpaceX apresenta formulário 8-K detalhando a utilização das receitas da oferta pública inicial (IPO) para IA e satélites
A Cottonia faz parceria com a Matrix para integrar análises de IA na BNB Chain
CEO da Qualcomm: os Agentes de IA vão substituir as aplicações à medida que são lançados 40+ novos dispositivos
VARA exige que as empresas cripto de Dubai verifiquem as listas negras da FATF nas orientações de AML para 2026
O modelo Rio 3,5 da IplanRIO, comprovado como Nex Weight Merge em disputa de atribuição