Segundo Beating, a Microsoft recentemente disponibilizou em código aberto a família de modelos Phi-Ground, projetada para resolver o problema de onde a IA deve clicar em uma tela de computador. A versão de 4 bilhões de parâmetros, combinada com modelos de linguagem maiores para planejamento de instruções, superou a precisão de clique do OpenAI Operator e do Claude Computer Use no benchmark Showdown e ficou em primeiro lugar entre todos os modelos com menos de 100 bilhões de parâmetros em cinco avaliações, incluindo ScreenSpot-Pro.
A equipe treinou com mais de 40 milhões de amostras de dados e descobriu que três técnicas comuns de treinamento usadas em artigos acadêmicos se tornaram ineficazes em escala. A abordagem principal se mostrou simples: gerar coordenadas como números regulares, como “523, 417”. Pesquisas anteriores criaram vocabulários especializados de posição para coordenadas, mas isso não funcionou em escala. A equipe também descobriu que colocar instruções de texto antes das imagens melhora o desempenho, pois os modelos conseguem identificar os alvos ao processar pixels. Além disso, métodos de aprendizado por reforço como DPO melhoraram a precisão mesmo após o fine-tuning.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
Quantra e FishWar Anunciam Parceria Estratégica para Integrar Jogos com IA à Infraestrutura de RWA em 9 de maio
Em comunicados oficiais de 9 de maio, Quantra e FishWar anunciaram uma parceria estratégica para combinar experiências de jogos com IA e infraestrutura de blockchain de ativos do mundo real. A colaboração, compartilhada pelos canais oficiais de mídia social das duas empresas, tem como objetivo integrar as soluções de tokenização de RWA da Quantra com a plataforma GameFi da FishWar na Sei Network. A parceria busca fortalecer a escalabilidade dos jogos em blockchain, a interação on-chain e a integ
GateNews6m atrás
Sam Altman revela a divisão de uso do ChatGPT por faixa etária, com mais de um terço dos jovens de 18-24 anos usando diariamente em 10 de maio
De acordo com a Fortune, o CEO da OpenAI, Sam Altman, revelou em 10 de maio que usuários do ChatGPT em diferentes faixas etárias apresentam padrões de uso distintos. Usuários mais velhos tratam a plataforma como uma substituição do Google para buscas, enquanto pessoas na faixa dos 20 e 30 anos a usam como um conselheiro pessoal. Estudantes universitários a empregam como um sistema operacional diário, aproveitando a memória da conversa para conselhos emocionais, negociações de carreira, consultas
GateNews46m atrás
O secretário financeiro de Hong Kong, Paul Chan, destaca as três principais vantagens da Área da Grande Baía: IA, manufatura e finanças
De acordo com a ChainCatcher, o secretário financeiro de Hong Kong, Paul Chan, divulgou recentemente uma declaração por escrito, traçando três principais vantagens da Área da Grande Baía: pesquisa em IA de ponta, cadeias completas de manufatura de alto padrão e um hub financeiro internacional. Chan afirmou que essa combinação de “IA + manufatura + finanças” posiciona Hong Kong para cumprir duas funções-chave durante o período do 15º Plano Quinquenal: coordenação industrial e ponte regulatória, i
GateNews1h atrás
Disputa no Code Mode da Anthropic entre MCP e CLI: ferramentas travam o runtime, tokens caem de 150K para 2K
Em 2025 inteiro, a comunidade de engenharia de IA discutiu sem parar sobre a questão “MCP vs CLI”, que é mais adequada para chamadas de ferramentas por agentes, e o artigo da Anthropic publicado em novembro de 2025, “Code execution with MCP”, redefiniu o problema dos primeiros princípios. akshay\pachaar 5/10 organizou um thread que explica: o problema nunca esteve no protocolo em si, e sim no antigo hábito de colocar todas as descrições de ferramentas no context no início da session; a solução d
ChainNewsAbmedia4h atrás
ByteDance planeja aumentar em 25% os gastos com infraestrutura de IA para 200 bilhões de yuanes este ano
De acordo com a ChainCatcher citando a Golden Data, a ByteDance planeja aumentar os gastos com infraestrutura de IA em 25% para 200 bilhões de iuanes este ano, impulsionada pelos custos crescentes de chips de memória e pelo desenvolvimento acelerado da inteligência artificial.
GateNews4h atrás
Plataforma de IA para empresas encerra rodada de financiamento $16M liderada pela a16z
De acordo com a Odaily, a plataforma corporativa de IA Pit anunciou a conclusão de uma rodada de financiamento de US$ 16 milhões, liderada pela a16z, com participação da Lakestar e de executivos da OpenAI, Anthropic, Google, Deel e Revolut. A Pit se posiciona como “time de produto de IA como serviço”, projetado para substituir planilhas tradicionais e sistemas SaaS rígidos.
GateNews4h atrás