Microsoft Research hat diese Woche Fara1.5 veröffentlicht, ein Open-Weight-KI-Modell für Web-Browsing-Aufgaben, das in Branchen-Benchmarks OpenAI's Operator und Googles Gemini 2.5 Computer Use übertraf. Fara1.5-27B erzielte 72% bei Online-Mind2Web, gegenüber 58,3% von OpenAI Operator und 57,3% von Gemini 2.5 Computer Use. Die Veröffentlichung markiert einen Wandel in der Wettbewerbslandschaft der Computer-Use-Agents – KI-Systeme, die Browserbildschirme lesen und Aktionen wie Klicken, Scrollen und Tippen ausführen, ohne dass spezielle Plugins erforderlich sind. Anders als OpenAI's proprietärer, cloudbasierter Operator (der im Januar 2025 für 200 US-Dollar pro Monat gestartet wurde, bevor er im August abgeschaltet wurde) und Googles Gemini-Angebot ist Fara1.5 Open-Source mit öffentlich freigegebenen Gewichten. Microsoft erreichte diese Performance, indem der komplette Entwicklungsprozess neu gedacht wurde – von der Datengenerierung und den Trainingszielen bis hin zu Modellentwurf und Orchestrierung.
Modellspezifikationen und Verfügbarkeit
Fara1.5 gibt es in drei Größen: 4 Milliarden, 9 Milliarden und 27 Milliarden Parameter, die alle auf Qwen 3.5 basieren, einem Alibaba-Basis-Modell, das Microsoft speziell für Browser-Arbeiten feinjustiert hat. Fara1.5-9B, die mittelgroße Variante, erzielte 63,4% bei Online-Mind2Web – vor den Angeboten von OpenAI und Google. Das Modell mit 9 Milliarden Parametern ist jetzt auf Azure AI Foundry live, während die Varianten mit 4 Milliarden und 27 Milliarden in Kürze eintreffen.
Benchmark-Performance
Online-Mind2Web, der wichtigste Benchmark, testet, wie oft ein KI-Agent 300 diverse, reale Aufgaben korrekt über 136 beliebte Live-Websites hinweg erledigt – darunter Produktvergleiche, Formularausfüllungen und Buchungsservices. Die Bewertung spiegelt wider, wie häufig Aufgaben korrekt auf dem tatsächlichen, sich ständig verändernden Internet abgeschlossen werden.
Bei WebVoyager, einem zweiten Benchmark, der die Task-Erfolgsquote im Live-Web misst, erreichte Fara1.5-27B 88,6% und lag damit knapp vor OpenAI Operator mit 87,0% sowie vor H Company's Holo2 (30 Milliarden Parameter) mit 83,0%.
Open-Source-Wettbewerber schnitten schlechter ab: Alibabas GUI-Owl-1.5 (8 Milliarden Parameter) kam auf 48,6%, während AI2's MolmoWeb 35,3% erzielte. Microsofts vorheriges Modell, Fara-7B, erreichte 34,1% – das bedeutet, dass Fara1.5-27B die Performance seines Vorgängers bei vergleichbarer Größe nahezu verdoppelte. Yutori's Navigator n1, die beste proprietäre Alternative, erreichte 64,7%.
Trainingsmethodik
Microsoft nutzte FaraGen1.5, um Trainingsdaten zu erzeugen, und setzte GPT-5.4 – OpenAI's Modell – als „Teacher Agent“ ein, um zu demonstrieren, wie man Browseraufgaben erledigt. Diese Demonstrationen wurden zu den Trainingsdaten für Fara1.5.
Das Team erstellte außerdem sechs vollständig funktionsfähige Repliken realer Websites, darunter E-Mail-Clients, Kalender und Marktplätze. Dieses synthetische Domain-Training ermöglichte es dem Modell, Aufgaben zu üben, die Logins oder irreversible Aktionen erfordern, ohne auf echte Konten zuzugreifen, wodurch die Leistung bei „gated“ Aufgaben verbessert wurde.
Sicherheit und Nutzerkontrolle
Jedes Modell ist darauf ausgelegt, irreversible Aktionen zu stoppen und abzufragen, bevor sie ausgeführt werden. Fara1.5 läuft durch MagenticLite, eine sandboxartige Browserumgebung, die jede Aktion protokolliert und es Nutzern erlaubt, den Agenten jederzeit zu stoppen. Laut Yash Lara, Senior PM Lead bei Microsoft Research, „ist das Gleichgewicht zwischen robusten Schutzmechanismen wie Critical Points und nahtlosen Nutzerreisen der Schlüssel. Eine UI, wie die Magentic-UI von Microsoft Research, ist entscheidend, um Nutzern Möglichkeiten zur Intervention zu geben, wenn es nötig ist, und gleichzeitig zu helfen, Approval-Fatigue zu vermeiden.“
Zukünftige Expansion
Microsoft erklärte, dass Pläne bestehen, Fara1.5 über den Browser hinaus in Desktop- und Enterprise-Softwareanwendungen auszuweiten.