OppoのMulti-Xチームは、オープンソースのAndroid AIエージェントフレームワークであるX-OmniClawを公開しました。これは、重い推論タスクに限ってクラウドベースの言語モデルを呼び出す一方で、コアロジックは端末上に保持します。クラウド上で仮想のAndroidコピーをホストすることが多いモバイルAIシステムとは異なり、X-OmniClawはユーザーの実機端末で直接動作し、電話のカメラ、写真、ローカルファイルにアクセスできる状態を維持します。
## アーキテクチャ:オンデバイス知能の3つの柱
X-OmniClawは、Oppoの技術ドキュメントによると、相互に連携する3つのコンポーネントによって、1つの連続ループとして動作します。
Omni Perceptionは、カメラ映像、画面の内容、音声入力を1つのパイプラインに統合します。ビジョン言語モデルが、エージェントが行動を起こす前に状況を解釈します。たとえば、ユーザーがカメラで商品を指し示し「値段はいくら?」と尋ねた場合、エージェントはまず自分が何を見ているのかを特定し、その後関連するショッピングアプリを開いて検索を開始し、手入力を必要としません。
Omni Memoryは、タスクをまたいだ文脈を維持することで、ワンショットのチャットボットとX-OmniClawを区別します。アプリの切り替えやセッションをまたいでも文脈を保ちます。エージェントは、ユーザーの写真ギャラリーから長期の意味記憶を構築し、生の画像を、物・場面・出来事に関する構造化されたメモへと変換します。レポートによれば、「ランタイムの継続性が、X-OmniClawをワンショットの応答システムではなく、継続的なデバイスエージェントとして動作させるのです。」
Omni Actionは、実行を、XMLインターフェースのデータとオンデバイスの視覚モデル、さらに光学式文字認識(OCR)を組み合わせて扱い、散らかった画面上でも「正確にどこをタップするか」を判断します。このフレームワークには、ユーザーがナビゲーション経路を1回だけ記録し、その後のセッションではAndroidのdeeplinkショートカット経由で即座に再生できるようにする振る舞い模倣(behavior cloning)機能が含まれています。これにより、多段階のアプリ内ナビゲーションを回避できます。
## 運用例
OppoはX-OmniClawのいくつかの実用的な応用を示しました。
- 製品の識別と価格:エージェントはカメラで実物の商品を識別し、Taobaoを開き、検索結果をスクロールして、入力操作(タイピング)を必要とせずに価格の要約を返します。
- 学習支援:画面上に浮かぶ相棒が、数学の問題を手順ごとに進められるよう支援し、画面の内容を自律的に読み取り、各設問を処理し、完了すると前へ進みます。
- ギャラリーからの動画作成:オウム(parrot)をテーマにした写真からハイライト動画を組み立てるよう求められたとき、システムは意味記憶を使ってギャラリーをスキャンし、対応する画像を見つけます。次にdeeplinkでCapCutの動画エディタを開き、ファイルをまとめて選択し、動画を生成します。レポートでは、このプロセスは以前「数分、あるいはそれ以上」かかっていたのに、数えるほどの自動化ステップにまで減ったとされています。
## AIエージェント・エコシステム内での位置づけ
X-OmniClawは、OpenClawによって先行されたアーキテクチャを拡張しています。OpenClawはオープンソースのエージェントフレームワークで、GitHubのスター数が373,000を超え、最終的にOpenAIの支援を受けました。Nous ResearchのHermes Agentはさらに、自ら改善する学習ループにより、時間の経過とともに能力が積み上がっていくという考え方でこのコンセプトを前進させました。両プロジェクトは主にデスクトップのハードウェア上で動作していました。X-OmniClawは、オープンソースのHermesAppコードベースを土台にしてこのアーキテクチャをスマートフォン向けに適応し、基礎となる着想としてOpenClawの構造化スキルモデルを取り込み、そのうえでモバイル端末のマルチモーダルで常時稼働(always-on)な性質に合わせてカスタマイズしています。
コードはGitHubで公開されており、Oppoは、システムの進化に合わせてプロジェクトの更新を続け、すべてのアセットをリリースすることをコミットしています。