Laut Beating hat Google die Multi-Token-Prediction-Architektur (MTP) auf den Pixel-9- und Pixel-10-Geräten eingesetzt, wodurch das On-Device-Modell Gemini Nano v3 deutlich beschleunigt wird. Die neue Architektur steigerte die Inferenzgeschwindigkeit um über 50 %, während die Sicherheitsausrichtung und Ausgabequalität des Modells erhalten blieben.
Der Zero-Copy-Mechanismus ermöglicht es dem Prediction-Head, die gecachten Features des Hauptmodells direkt per Cross-Attention wiederzuverwenden, wodurch der separate Key-Value-Cache-Overhead traditioneller Draft-Modelle entfällt. Dieses Design sparte etwa 130 MB Speicher und verkürzte gleichzeitig die Startlatenz. In realen Anwendungen wie Zusammenfassungen von Benachrichtigungen und Smart Replies erreichte MTP eine Steigerung der Token-Akzeptanzrate um 55 %, verringerte die Häufigkeit des Prozessor-Wake-ups und senkte den Gesamtstromverbrauch.