Nhóm Multi-X của Oppo đã công bố X-OmniClaw, một khung tác nhân AI cho Android mã nguồn mở. Khung này giữ logic cốt lõi ngay trên thiết bị, đồng thời chỉ gọi các mô hình ngôn ngữ dựa trên đám mây cho những tác vụ cần suy luận nặng. Không giống đa số hệ thống AI trên di động chạy trên máy chủ đám mây lưu bản sao Android ảo, X-OmniClaw được thực thi trực tiếp trên thiết bị vật lý của người dùng, vẫn có quyền truy cập camera, ảnh và các tệp cục bộ của điện thoại.
## Kiến trúc: Ba trụ cột của trí tuệ chạy trên thiết bị
X-OmniClaw hoạt động thông qua ba thành phần liên kết với nhau, theo tài liệu kỹ thuật của Oppo.
Omni Perception kết hợp luồng camera, nội dung màn hình và đầu vào giọng nói thành một đường xử lý duy nhất. Một mô hình ngôn ngữ-kết hợp-thị giác diễn giải bối cảnh trước khi tác nhân hành động. Ví dụ, nếu người dùng chĩa camera vào một sản phẩm và hỏi giá, tác nhân sẽ trước tiên xác định mình đang xem gì, sau đó mở ứng dụng mua sắm phù hợp và bắt đầu tìm kiếm mà không cần nhập thủ công.
Omni Memory phân biệt X-OmniClaw với chatbot chỉ trả lời một lần bằng cách duy trì ngữ cảnh qua các tác vụ, chuyển đổi ứng dụng và các phiên làm việc. Tác nhân xây dựng trí nhớ ngữ nghĩa dài hạn từ thư viện ảnh của người dùng, chuyển đổi ảnh thô thành các ghi chú có cấu trúc về đối tượng, bối cảnh và sự kiện. Theo báo cáo, “tính liên tục khi chạy là thứ cho phép X-OmniClaw vận hành như một tác nhân thiết bị liên tục, thay vì một hệ thống phản hồi theo từng lần.”
Omni Action thực hiện nhiệm vụ bằng cách kết hợp dữ liệu giao diện dạng XML với các mô hình thị giác chạy trên thiết bị và nhận dạng ký tự quang học (OCR) để xác định chính xác cần chạm vào đâu, kể cả trên các màn hình lộn xộn. Khung còn có tính năng sao chép hành vi, cho phép người dùng ghi lại một lộ trình điều hướng một lần, rồi phát lại ngay bằng các phím tắt Android deeplink ở các phiên sau, bỏ qua điều hướng theo nhiều bước trong ứng dụng.
## Ví dụ vận hành
Oppo đã trình diễn một số ứng dụng thực tế của X-OmniClaw:
- Nhận diện sản phẩm và báo giá: Tác nhân nhận diện một sản phẩm vật lý qua camera, mở Taobao, cuộn qua kết quả và trả về bản tóm tắt giá mà không cần yêu cầu nhập liệu.
- Hỗ trợ học tập: Một trợ lý nổi trên màn hình giúp người dùng làm bài tập toán từng bước, tự đọc nội dung màn hình, xử lý từng câu hỏi và tự động chuyển sang bước tiếp theo khi hoàn thành.
- Tạo video từ thư viện ảnh: Khi được yêu cầu lắp một video highlight từ các bức ảnh chủ đề vẹt, hệ thống quét thư viện bằng trí nhớ ngữ nghĩa để tìm các hình phù hợp, mở trình chỉnh sửa video của CapCut thông qua deeplink, chọn hàng loạt tệp và tạo video. Báo cáo cho biết quy trình này, trước đây cần “vài phút hoặc lâu hơn”, nay chỉ còn một vài bước tự động.
## Định vị trong hệ sinh thái tác nhân AI
X-OmniClaw mở rộng một kiến trúc do OpenClaw tiên phong. Đây là một khung tác nhân mã nguồn mở từng đạt hơn 373.000 sao GitHub và cuối cùng được hỗ trợ bởi OpenAI. Hermes Agent của Nous Research đã nâng ý tưởng lên một bước nữa với vòng lặp học tập tự cải tiến, giúp năng lực tích lũy theo thời gian. Cả hai dự án đều chạy chủ yếu trên phần cứng máy tính để bàn. X-OmniClaw điều chỉnh kiến trúc này cho smartphone bằng cách dựa trên mã nguồn mở HermesApp và lấy mô hình kỹ năng có cấu trúc của OpenClaw làm cảm hứng nền tảng, sau đó tùy biến cho tính đa phương thức và luôn sẵn sàng của các thiết bị di động.
Mã nguồn có trên GitHub, và Oppo cam kết phát hành toàn bộ tài sản (assets) đồng thời tiếp tục cập nhật dự án khi hệ thống phát triển.