Theo Beating, Google đã triển khai kiến trúc Multi-Token Prediction (MTP) trên các thiết bị Pixel 9 và Pixel 10, giúp tăng tốc đáng kể mô hình Gemini Nano v3 chạy trên thiết bị. Kiến trúc mới giúp tăng tốc độ suy luận lên hơn 50% trong khi vẫn duy trì sự an toàn và chất lượng đầu ra của mô hình.
Cơ chế zero-copy cho phép đầu dự đoán tái sử dụng trực tiếp các đặc trưng đã lưu trong bộ nhớ đệm của mô hình chính thông qua cross-attention, loại bỏ chi phí bộ nhớ đệm khóa-giá trị riêng của các mô hình nháp truyền thống. Thiết kế này tiết kiệm khoảng 130MB bộ nhớ, đồng thời giảm độ trễ khởi động. Trong các ứng dụng thực tế như tóm tắt thông báo và trả lời thông minh, MTP đạt được tỷ lệ chấp nhận token tăng 55%, giảm tần suất đánh thức bộ xử lý và hạ mức tiêu thụ năng lượng hệ thống.