Mensagem do Gate News, 24 de Abril — A responsável da equipa de modelos de linguagem da Xiaomi, Luo Fuli, revelou numa entrevista aprofundada que o modelo MiMo-V2-Pro tem, no total, 1 bilião de parâmetros e que foram necessários milhares de GPUs para o treino. Ela referiu que a escala de 1T representa o limiar mínimo para obter desempenho a aproximar-se do nível do Claude Opus 4.6 e garantir um bilhete de entrada competitivo para a próxima fase dos agentes de IA.

Tecnicamente, a versão Pro utiliza um mecanismo de atenção esparsa extrema, com uma proporção de 7:1 entre a atenção global e a atenção por janela deslizante, controlando os custos de inferência para o processamento de longos contextos. O modelo mantém também a arquitectura MTP (Multi-Token Prediction) para aproveitar o poder de computação excedente e acelerar a inferência.

Do lado da gestão, a equipa MiMo, com 100 pessoas, tem apenas 30-40 indivíduos directamente envolvidos nas iterações centrais. A equipa opera sem hierarquias formais ou divisões explícitas em subgrupos e sem prazos de entrega. Quando se depara com problemas numéricos instáveis, como picos de perda durante o treino, a equipa dá prioridade a interromper o treino para investigação, mesmo que isso signifique parar as operações durante uma ou duas semanas e incorrer em milhões de dólares de custos de computação.

Ver fonte

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Infraestrutura Web3 para IA: AIW3 angaria $2M em financiamento semente liderado pela Buffalo Capital

Agente de IA Notícias da indústria de IA

Notícia do Gate, 24 de abril — A plataforma de infraestrutura Web3 para IA, AIW3, anunciou a conclusão de uma ronda de financiamento semente no valor de $2 milhões. A ronda foi liderada pela Buffalo Capital, com a GalaXin Capital e a Three-stones Ventures a participarem como co-investidoras. A AIW3 está a transitar para um paradigma de execução on-chain Agent-as-a-Service

GateNews7m atrás

Cohere Adquire Empresa Alemã de IA Aleph Alpha, Garante $600M Investimento para Expansão na Europa

Notícias da indústria de IA

Mensagem de Notícias do Gate, 24 de abril — A empresa canadiana de IA Cohere anunciou planos para adquirir a empresa alemã de IA Aleph Alpha, para reforçar a sua presença na Europa. A Schwarz Group, apoiadora da Aleph Alpha, planeia investir $600 milhões na ronda de financiamento Série E da Cohere. Espera-se que a ronda de financiamento seja concluída em 202

GateNews48m atrás

Xpeng e Xiaomi lideram avanço de IA no automóvel no Beijing Auto Show

Notícias da indústria de IA

Notícia do Gate, 24 de Abril — Os fabricantes automóveis chineses mostraram sistemas avançados de IA para automóveis no Beijing Auto Show a 24 de Abril, enquanto o país acelera a sua estratégia AI Plus e procura uma maior independência de semicondutores estrangeiros. A Xpeng demonstrou um estacionamento controlado por voz que permite aos condutores de emitir comandos falados em vez de selecionar manualmente localizações.

GateNews1h atrás

Antigo Engenheiro da ByteDance Seed: A iteração de IA da ByteDance demora seis meses, em comparação com os três meses do Google

Notícias da indústria de IA

Mensagem de Gate News, 24 de abril — Zhang Chi, um antigo engenheiro da equipa Seed da ByteDance e atualmente professor assistente na Universidade de Pequim, revelou no podcast "Into Asia" que a ByteDance necessita de aproximadamente seis meses para concluir um ciclo completo de treino de pré-formação de modelos de linguagem de grande dimensão (pretraining

GateNews1h atrás

Engenheiro da OpenAI Clive Chan ContestA as Recomendações de Hardware da V4, Apontando Erros e Ambiguidade Face à V3

Notícias da indústria de IA

Mensagem do Gate News, 24 de Abril — O engenheiro da OpenAI Clive Chan apresentou objecções detalhadas ao capítulo de recomendações de hardware no relatório técnico V4, chamando-lhe "surpreendentemente medíocre e propenso a erros" em comparação com a aclamada versão V3. A orientação de hardware da V3, que incluía sessões de Q&A

GateNews2h atrás

Naver Launches AI Tab Beta as Google Gemini Enters South Korea Search Market

Notícias da indústria de IA

Gate News message, April 24 — Naver announced the start of a closed beta for AI Tab, its new conversational search feature, following Google's launch of Gemini in Chrome in South Korea. AI Tab will appear alongside Naver's existing search tabs, offering users a dedicated space for conversational

GateNews2h atrás

Comentar

0/400

Nenhum comentário