Google Menerapkan Prediksi Multi-Token pada Pixel 9 dan 10, Meningkatkan Kecepatan Inferensi Gemini Nano Lebih dari 50%

Menurut Beating, Google menerapkan arsitektur Multi-Token Prediction (MTP) pada perangkat Pixel 9 dan Pixel 10, yang secara signifikan mempercepat model Gemini Nano v3 di perangkat. Arsitektur baru ini meningkatkan kecepatan inferensi lebih dari 50% sambil mempertahankan keselarasan keamanan dan kualitas keluaran model.

Mekanisme zero-copy memungkinkan kepala prediksi untuk menggunakan kembali fitur cache model utama secara langsung melalui cross-attention, menghilangkan overhead cache key-value terpisah dari model draf tradisional. Desain ini menghemat sekitar 130 MB memori sekaligus mengurangi latensi startup. Dalam aplikasi dunia nyata seperti peringkasan notifikasi dan balasan pintar, MTP mencapai peningkatan tingkat penerimaan token sebesar 55%, mengurangi frekuensi bangun prosesor dan menurunkan konsumsi daya sistem.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar