Oppo X-OmniClaw: Open-Source-Android-KI-Agent läuft lokal ohne Cloud

OliverGrant

Das Multi-X-Team von Oppo hat X-OmniClaw veröffentlicht: ein Open-Source-Android-KI-Agenten-Framework. Es hält die zentrale Logik lokal auf dem Gerät, ruft Cloud-basierte Sprachmodelle jedoch nur für besonders anspruchsvolle Denkaufgaben auf. Im Gegensatz zu den meisten mobilen KI-Systemen, die in Cloud-Servern laufen und dort virtuelle Android-Kopien hosten, wird X-OmniClaw direkt auf dem physischen Gerät des Nutzers ausgeführt und behält so den Zugriff auf die Kamera, Fotos und lokale Dateien des Telefons.

Architektur: Drei Säulen intelligenter On-Device-Nutzung

X-OmniClaw arbeitet laut Oppos technischer Dokumentation über drei miteinander verbundene Komponenten, die als ein durchgehender Loop funktionieren.

Omni Perception bündelt Kamerafeeds, Inhalte des Bildschirms und Sprachinputs in einer einzigen Pipeline. Ein Vision-Language-Modell interpretiert die Szene, bevor der Agent handelt. Wenn der Nutzer beispielsweise seine Kamera auf ein Produkt richtet und dessen Preis fragt, identifiziert der Agent zuerst, was er sieht, öffnet anschließend die passende Shopping-App und beginnt mit der Suche, ohne dass dafür eine manuelle Eingabe nötig ist.

Omni Memory unterscheidet X-OmniClaw von One-Shot-Chatbots, indem es den Kontext über Aufgaben, App-Wechsel und Sitzungen hinweg beibehält. Der Agent baut ein langfristiges semantisches Gedächtnis aus der Foto-Galerie des Nutzers auf und wandelt Rohbilder in strukturierte Notizen über Objekte, Szenen und Ereignisse um. Laut dem Bericht ist „runtime continuity das, was es X-OmniClaw ermöglicht, als fortlaufender Geräteagent zu arbeiten – statt als reines One-Shot-Antwortsystem“.

Omni Action übernimmt die Ausführung, indem es XML-Interface-Daten mit On-Device-Visionsmodellen und optischer Zeichenerkennung (OCR) kombiniert, um exakt zu bestimmen, was angetippt werden muss – auch auf überladenen Bildschirmen. Das Framework enthält außerdem eine Behavior-Cloning-Funktion: Damit können Nutzer einmal einen Navigationspfad aufnehmen und ihn dann in zukünftigen Sitzungen sofort per Android-deeplink-Shortcuts wieder abspielen, wodurch eine mehrstufige App-Navigation umgangen wird.

Konkrete Einsatzbeispiele

Oppo zeigte mehrere praxisnahe Anwendungen von X-OmniClaw:

  • Produkterkennung und Preisermittlung: Der Agent identifiziert ein physisches Produkt per Kamera, öffnet Taobao, scrollt durch die Ergebnisse und liefert eine Preissummierung zurück – ohne dass etwas getippt werden muss.

  • Lernunterstützung: Ein schwebender Bildschirm-Companion hilft Nutzern, Matheaufgaben Schritt für Schritt zu bearbeiten. Er liest dabei autonom Bildschirminhalte, verarbeitet jede Aufgabe und geht automatisch weiter, sobald die jeweilige Lösung abgeschlossen ist.

  • Videoerstellung aus der Galerie: Wenn das System aufgefordert wird, aus Papagei-Themen-Fotos ein Highlight-Video zusammenzustellen, durchsucht es die Galerie mithilfe des semantischen Gedächtnisses nach passenden Bildern, öffnet den Videoeditor von CapCut per Deeplink, wählt Dateien im Batch aus und erstellt anschließend das Video. Der Bericht zufolge werden dabei „zuvor ein paar Minuten oder länger“ benötigte Abläufe auf nur wenige automatisierte Schritte reduziert.

Einordnung im Ökosystem von KI-Agenten

X-OmniClaw erweitert eine Architektur, die von OpenClaw entwickelt wurde: ein Open-Source-Agenten-Framework, das über 373.000 GitHub-Stars erreichte und später von OpenAI unterstützt wurde. Hermes Agent von Nous Research brachte die Idee mit einer sich selbst verbessernden Lernschleife weiter voran, die die Fähigkeiten im Laufe der Zeit verstärkt. Beide Projekte liefen hauptsächlich auf Desktop-Hardware. X-OmniClaw adaptiert diese Architektur für Smartphones, indem es auf der Open-Source-HermesApp-Codebasis aufbaut und das strukturierte Skill-Modell von OpenClaw als grundlegende Inspiration einsetzt – und es dann für die multimodale, stets aktive Natur mobiler Geräte anpasst.

Der Code ist auf GitHub verfügbar. Oppo verpflichtet sich, alle Assets bereitzustellen und das Projekt weiter zu aktualisieren, während sich das System weiterentwickelt.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare