Beating informó que Microsoft recientemente publicó como código abierto la familia de modelos Phi-Ground, diseñada para resolver el problema de dónde debe hacer clic la IA en una pantalla de computadora. La versión de 4 mil millones de parámetros, combinada con modelos lingüísticos más grandes para la planificación de instrucciones, superó la precisión de clic de OpenAI Operator y Claude Computer Use en el benchmark Showdown y quedó en el primer lugar entre todos los modelos de menos de 100 mil millones de parámetros en cinco evaluaciones, incluyendo ScreenSpot-Pro.
El equipo se entrenó con más de 40 millones de muestras de datos y descubrió que tres técnicas de entrenamiento comunes usadas en artículos académicos perdieron efectividad a escala. El enfoque clave resultó ser simple: generar coordenadas como números normales, como “523, 417”. Investigaciones previas inventaron vocabularios de posición especializados para coordenadas, pero no lograron escalar. El equipo también descubrió que colocar instrucciones de texto antes de las imágenes mejoró el rendimiento, ya que los modelos podían identificar los objetivos mientras procesaban los píxeles. Además, métodos de aprendizaje por refuerzo como DPO mejoraron la precisión incluso después del ajuste fino.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
Quantra y FishWar anuncian una asociación estratégica para integrar la IA en los juegos con la infraestructura de RWA el 9 de mayo
Según anuncios oficiales del 9 de mayo, Quantra y FishWar anunciaron una asociación estratégica para combinar experiencias de gaming impulsadas por IA con infraestructura blockchain de activos del mundo real. La colaboración, compartida a través de los canales oficiales de redes sociales de ambas empresas, busca integrar las soluciones de tokenización de RWA de Quantra con la plataforma GameFi de FishWar en la red Sei. La asociación pretende fortalecer la escalabilidad del gaming en blockchain,
GateNewsHace6m
Sam Altman revela la proporción del uso de ChatGPT por edades, con más de un tercio de los jóvenes de 18 a 24 años que lo usan a diario el 10 de mayo
Según Fortune, el CEO de OpenAI, Sam Altman, reveló el 10 de mayo que los usuarios de ChatGPT en distintos grupos de edad tienen patrones de uso diferentes. Los usuarios mayores tratan la plataforma como un reemplazo de la búsqueda en Google, mientras que los de entre 20 y 30 años la usan como un asesor personal. Los estudiantes universitarios la emplean como un sistema operativo diario, aprovechando la memoria de las conversaciones para obtener consejos emocionales, negociar carreras, consultar
GateNewsHace46m
El secretario financiero de Hong Kong, Paul Chan, destaca las tres ventajas principales de la Gran Bahía: IA, manufactura y finanzas
Según ChainCatcher, el secretario financiero de Hong Kong, Paul Chan, publicó recientemente una declaración escrita, en la que detalló las tres ventajas principales de la Gran Área de la Bahía: investigación de IA de vanguardia, cadenas completas de fabricación de alta gama y un centro financiero internacional. Chan afirmó que esta combinación de «IA + manufactura + finanzas» sitúa a Hong Kong para desempeñar dos funciones clave durante el periodo del 15º Plan Quinquenal: coordinación industrial
GateNewshace1h
La disputa en Code Mode de Anthropic sobre MCP vs CLI: herramientas para el runtime y los tokens pasan de 150K a 2K
2025 年整年 AI 工程社群在「MCP vs CLI」哪個更適合 Agent 工具呼叫的問題上爭論不休、Anthropic 2025 年 11 月發表的「Code execution with MCP」論文從第一原則重新定義了問題。akshay\pachaar 5/10 整理 thread說明:問題從來不在協議本身、而在「session 開始時把所有工具描述塞進 context」的舊習慣;Anthropic 的解法是讓模型寫程式碼呼叫工具、運行時負責管理工具細節。新模式被稱為「Code Mode」。 舊模式的問題:150 mil tokens 中模型大部分用不到 舊 MCP 模式的浪費結構: Playwright MCP:13,7 mil tokens(一次塞滿) Chrome DevTools MCP:18 mil tokens 5 個 server 設定:尚未開始工作就燒掉 55 mil tokens 單一 workflow 完整執行:可膨脹到 150 mil tokens 模型實際用到的:絕大部分都用不上 批評者主張改用 CLI、但 CLI 在多租戶 app 容易出錯、缺乏
ChainNewsAbmediahace4h
ByteDance planea aumentar el gasto en infraestructura de IA en un 25% este año, hasta 200 mil millones de yuanes
Según ChainCatcher citando Golden Data, ByteDance planea aumentar este año el gasto en infraestructura de IA en un 25% hasta 200 mil millones de yuanes, impulsado por el alza en los costos de los chips de memoria y el desarrollo acelerado de la inteligencia artificial.
GateNewshace4h
Plataforma empresarial de IA cierra la ronda de financiación de $16M , liderada por a16z
Según Odaily, la plataforma de IA empresarial Pit anunció la finalización de una ronda de financiación de 16 millones de dólares liderada por a16z, con la participación de Lakestar y de ejecutivos de OpenAI, Anthropic, Google, Deel y Revolut. Pit se posiciona como “equipo de productos de IA como servicio”, diseñado para reemplazar las hojas de cálculo tradicionales y los sistemas SaaS rígidos.
GateNewshace4h