Tin nhắn Gate News, ngày 16 tháng 4 — Google và Boston Dynamics đã công bố việc tích hợp các mô hình reasoning thể hiện của Gemini Robotics vào robot tứ chi Spot, giúp hệ thống có thể diễn giải các hướng dẫn bằng ngôn ngữ tự nhiên, nhận diện các vật thể và thực hiện các tác vụ phức tạp một cách tự chủ.
Sự hợp tác này, dựa trên các công việc thử nghiệm từ một hackathon nội bộ năm 2025, cho phép Spot xử lý dữ liệu đầu vào dạng hình ảnh và chuyển các lệnh cấp cao thành các hành động vật lý được phối hợp. Không giống với lập trình robot truyền thống, vốn dựa vào logic cứng theo từng bước, hệ thống sử dụng các lời nhắc mang tính hội thoại và một lớp phần mềm trung gian kết nối các mô hình Gemini với API của Spot. AI có thể chọn từ các khả năng được xác định trước, bao gồm điều hướng, phát hiện vật thể, chụp ảnh, gắp và đặt, với phản hồi thời gian thực giúp tạo ra hành vi thích nghi mà không cần can thiệp thủ công.
Trong các buổi trình diễn, hệ thống đã diễn giải thành công các hướng dẫn chung để sắp xếp các món đồ, phân tích dữ liệu hình ảnh và điều khiển robot thông qua các chuỗi hành động. Cách tiếp cận này duy trì an toàn vận hành bằng cách giới hạn các khả năng của AI trong các ranh giới được xác định trước bên trong API của robot, cân bằng giữa tính thích ứng và hiệu năng được kiểm soát. Quan hệ đối tác này cho thấy khả năng cải thiện hiệu quả cho các nhà phát triển bằng cách giảm việc mã hóa thủ công và cho phép các kỹ sư tập trung vào việc xác định mục tiêu thay vì lập trình từng chuỗi hành động.