Microsoft lanza el primer modelo de agente inteligente controlado por computadora con 7 mil millones de parámetros, Fara-7B

robot
Generación de resúmenes en curso
AIMPACT Mensaje, 16 de mayo (UTC+8), Microsoft lanzó Fara-7B, su primer modelo de lenguaje pequeño de 7 mil millones de parámetros diseñado específicamente para escenarios de uso en computadoras.
El modelo utiliza una arquitectura de decodificador multimodal, capaz de recibir imágenes de capturas de pantalla y contexto de texto, prediciendo directamente cadenas de pensamiento parametrizadas y acciones operativas.
Construido sobre Qwen 2.5-VL (7B), soporta una longitud de contexto de 128k, entrenado durante 2.5 días en 64 GPU H100, y lanzado bajo la licencia MIT el 24 de noviembre de 2025.
Fara-7B percibe entradas del navegador mediante capturas de pantalla, combinando razonamiento interno y registro del estado histórico para predecir la siguiente acción y sus parámetros (como coordenadas de clic), dependiendo de un conjunto de datos sintéticos a gran escala para el entrenamiento.
El modelo puede planificar y ejecutar tareas avanzadas (como reservar restaurantes, solicitar empleos, planear viajes, etc.).
En cuanto a alineación de seguridad, utiliza métodos de entrenamiento posterior robusto, posee capacidad de reconocimiento de puntos clave, puede rechazar siete tipos de tareas que violen las políticas de uso, y en puntos críticos como ingresar información personal o completar compras, pausa la operación.
Los usuarios pueden desplegar e interactuar con el modelo a través de repositorios en GitHub, vllm y la herramienta fara-cli, principalmente para tareas automatizadas en páginas web.
(Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 9
  • 3
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GateUser-53a6e1a8
· hace1h
El alineamiento seguro puede rechazar tareas que violen las normas, esto es más confiable que AutoGPT.
Ver originalResponder0
TheBluePeony'sProphecy
· hace1h
Qwen 2.5-VL tiene una buena base, pero la carrera de agentes multimodales está descontrolada
Ver originalResponder0
SeaSaltFlavorAirdrop
· hace1h
En el área de automatización web, los Frankenstein de Playwright+LLM van a quedarse sin trabajo.
Ver originalResponder0
GateUser-4bd1cc87
· hace2h
Aprobación de la licencia MIT, 7B parámetros pueden ejecutarse localmente
Ver originalResponder0
GlassCityAfterTheRain
· hace2h
¿Es fácil desplegar fara-cli? ¿Hay alguna imagen de Docker?
Ver originalResponder0
GateUser-8da82d63
· hace2h
Entrenamiento con datos sintéticos completos, capacidad de generalización en duda, esperar resultados de pruebas reales
Ver originalResponder0
LateAlphaCourier
· hace2h
¿Un contexto de 128k es suficiente para que pueda meter toda la página web?
Ver originalResponder0
AirdropUnderTheNeonBridge
· hace2h
Captura de pantalla + texto predice directamente las coordenadas, la automatización del navegador cambiará radicalmente
Ver originalResponder0
CandleChaser
· hace2h
64 tarjetas H100 entrenando dos días y medio, no puedo calcular ese costo
Ver originalResponder0
Ver más