MIT bekerja sama dengan Nvidia mengembangkan teknologi TLT, meningkatkan efisiensi pelatihan model besar AI inferensi hingga 210%

2026-04-04 15:04:57

Pembuatan abstrak sedang berlangsung

IT之家, 28 Februari melaporkan bahwa MIT News pada 26 Februari memublikasikan sebuah artikel blog yang menyebutkan bahwa Institut Teknologi Massachusetts (MIT), bersama dengan NVIDIA dan institusi lain, telah merilis teknologi “menjinakkan ekor panjang” (TLT) yang dapat sangat meningkatkan efisiensi pelatihan model bahasa besar untuk inferensi (LLM).

IT之家 mengutip pengantar dalam blog tersebut. Model besar untuk inferensi unggul dalam memecahkan masalah kompleks dengan membedah langkah-langkah, namun selama proses pelatihan pembelajaran penguatan (RL), konsumsi komputasi dan energi sangatlah besar.

Tim peneliti menemukan bahwa tahap “rollout” yang menghasilkan banyak kandidat jawaban menempati hingga 85% dari waktu pelatihan. Karena panjang respons yang dihasilkan berbeda-beda oleh tiap prosesor, prosesor yang menyelesaikan lebih cepat terpaksa menganggur, menunggu prosesor lain menyelesaikan tugas teks panjang, sehingga terbentuk hambatan efisiensi yang serius.

Peneliti MIT, untuk mengatasi titik sakit ini, bersama NVIDIA, ETH Zurich (Swiss Federal Institute of Technology), dan institusi lain, mengajukan solusi adaptif bernama “menjinakkan ekor panjang” (TLT).

Inti solusi ini terletak pada penerapan inovatif teknik “decoding spekulatif”, yaitu melatih sebuah “model draf” yang lebih kecil (drafter) untuk memprediksi cepat keluaran masa depan dari model besar, lalu model besar melakukan verifikasi massal terhadap tebak-tebakan tersebut. Dengan cara ini, model besar tidak perlu menghasilkan output satu per satu secara berurutan, sehingga proses pemrosesan dapat dipercepat secara signifikan.

Dalam decoding spekulatif tradisional, model draf biasanya hanya dilatih sekali dan tetap statis. Namun dalam pembelajaran penguatan, model utama perlu diperbarui ribuan kali, sehingga model draf statis akan segera menjadi tidak valid.

Karena itu, sistem TLT memperkenalkan “pelatih draf adaptif”. Setelah sebagian prosesor menyelesaikan kueri singkat dan masuk ke status menganggur, sistem segera menjadwalkan mereka untuk melatih model draf secara real-time.

Secara bersamaan, “mesin rollout adaptif” akan menyesuaikan strategi decoding secara otomatis berdasarkan karakteristik beban kerja, memastikan model draf selalu sangat selaras dengan model besar target, serta tanpa menambah biaya komputasi tambahan.

Berdasarkan pengujian pada kumpulan data dunia nyata, teknologi TLT menunjukkan bahwa, dengan akurasi model yang sepenuhnya tidak mengalami kerugian, kecepatan pelatihan beberapa model bahasa besar untuk inferensi meningkat sebesar 70% hingga 210%.

Tidak hanya itu, model draf ringan yang dilatih juga dapat berfungsi sebagai produk sampingan gratis, yang langsung digunakan untuk deployment yang efisien di tahap berikutnya. Tim peneliti berencana ke depan untuk mengintegrasikan teknologi ini ke lebih banyak kerangka pelatihan dan inferensi, guna semakin menurunkan biaya pengembangan AI dan meningkatkan pemanfaatan energi.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.